概要
自回归(Autoregressive)是一种生成与建模思想,其核心是利用已生成的历史内容来预测下一个输出,通常通过概率链式法则逐步生成数据。它广泛应用于时间序列分析、语言模型、语音和序列生成任务中。
Transformer 是一种强大的神经网络结构,本身并不等同于自回归,但在使用因果注意力(causal mask)时,可以实现严格的自回归生成,如 GPT 等大语言模型。自回归 Transformer 生成质量高,但推理阶段难以并行,速度受序列长度限制。
扩散模型采用完全不同的生成范式:通过逐步加噪并学习反向去噪过程,从随机噪声中恢复数据。它不按内容顺序生成,因此不是自回归模型,具有更好的并行性,在图像和视频生成中表现尤为突出。
总体而言,**自回归是一种生成思想,Transformer 是实现依赖建模的网络结构,而扩散模型是一条基于噪声还原的非自回归生成路径。**三者并非对立,而是针对不同数据类型和工程需求的互补方案。
一、什么是自回归(Autoregressive, AR)
自回归是一种建模思想,核心是:
用“过去的自己”来预测“现在或未来的自己”。
直观理解
- 当前输出依赖于之前已经出现的输出
- 常见于时间序列、文本、语音、图像生成等任务
二、经典数学形式(以时间序列为例)
AR(p) 模型
[ x_t = c + \phi_1 x_{t-1} + \phi_2 x_{t-2} + \dots + \phi_p x_{t-p} + \varepsilon_t ]
含义:
- (x_t):当前时刻的值
- (x_{t-1}, x_{t-2}, \dots):历史值
- (p):回看多少个历史步
- (\varepsilon_t):噪声
👉 只依赖自身历史,不依赖外部变量
三、机器学习中的广义自回归
在现代机器学习中,自回归是一种概率建模与生成范式。
概率角度(链式法则)
对序列数据 (x = (x_1, x_2, \dots, x_T)):
[ P(x) = \prod_{t=1}^T P(x_t \mid x_1, \dots, x_{t-1}) ]
这一定义直接支撑了:
- 语言模型
- 序列生成模型
- 自回归神经网络
四、自回归与 Transformer 的关系
1. 关键澄清
- Transformer 是一种网络结构
- 自回归是一种生成 / 概率分解方式
👉 二者是正交概念,但经常结合使用。
2. 自回归 Transformer(以 GPT 为例)
训练机制
- 使用 因果掩码(causal mask)
- 第 (t) 个 token 只能看到前 (t-1) 个 token
- 学习条件概率: [ P(x_t \mid x_{<t}) ]
推理(生成)方式
输入: “机器学习”
→ 预测: “是”
→ 预测: “人工智能”
→ 预测: “的”
→ …
👉 严格一步一步生成,不能并行
3. Transformer 不一定是自回归
| 模型 | 是否自回归 | 原因 |
|---|---|---|
| GPT | 是 | 因果注意力 |
| BERT | 否 | 双向注意力 + Masked LM |
| Transformer Encoder | 否 | 无生成顺序 |
| Transformer Decoder | 取决于 mask | 可自回归也可非自回归 |
五、自回归 vs 非自回归(补充对比)
| 维度 | 自回归 | 非自回归 |
|---|---|---|
| 生成方式 | 顺序生成 | 并行生成 |
| 推理速度 | 慢 | 快 |
| 建模能力 | 强 | 相对弱 |
| 代表模型 | GPT | BERT、NAT |
六、扩散模型:与自回归完全不同的生成哲学
1. 扩散模型在做什么?
扩散模型不是直接建模 (P(x)),而是通过两个过程:
正向扩散(加噪)
[ x_0 \rightarrow x_1 \rightarrow \dots \rightarrow x_T \approx \mathcal{N}(0, I) ]
反向扩散(去噪)
[ p_\theta(x_{t-1} \mid x_t) ]
👉 学习的是:如何一步步把噪声还原成真实数据
2. 为什么扩散模型不是自回归?
自回归模型
[ x_t \mid x_{1:t-1} ]
- 按内容顺序(token / 像素)生成
扩散模型
[ x_{t-1} \mid x_t ]
- 按噪声时间步生成
- 每一步处理的是整个样本
👉 不存在“从左到右”的内容生成顺序
3. 并行性差异(非常关键)
| 模型 | 并行能力 |
|---|---|
| 自回归 Transformer | 差 |
| 扩散模型 | 好 |
| 非自回归 Transformer | 好 |
七、从“生成路径”统一理解三者
1. 生成路径对比
自回归 Transformer
token1 → token2 → token3 → …
扩散模型
随机噪声 → 模糊结构 → 清晰结构 → 完整样本
2. 用一句话总结
自回归:按“内容顺序”生成
扩散模型:按“噪声时间”还原
Transformer:用于建模依赖关系的强大网络结构
八、现实中的结合方式
1. Transformer + 自回归
- GPT、LLM
- 文本生成、代码生成
2. Transformer + 扩散
- Diffusion Transformer(DiT)
- Transformer 仅作为去噪网络,不是自回归
九、最终心智模型总结表
| 维度 | 自回归 Transformer | 扩散模型 |
|---|---|---|
| 概率建模 | 链式法则 | 反向马尔可夫 |
| 生成顺序 | 内容顺序 | 噪声时间 |
| 并行性 | 差 | 好 |
| 典型应用 | 文本、代码 | 图像、视频 |
| 主要瓶颈 | 序列长度 | 采样步数 |
十、一句话总总结
自回归是一种生成思想,
Transformer 是一种模型结构,
扩散模型是一种完全不同的生成路径。
它们并非对立,而是服务于不同数据形态与工程权衡的解决方案。