Skip to content

机器学习中的自回归:概念、Transformer与扩散模型的统一理解

发表: at 11:30

概要

自回归(Autoregressive)是一种生成与建模思想,其核心是利用已生成的历史内容来预测下一个输出,通常通过概率链式法则逐步生成数据。它广泛应用于时间序列分析、语言模型、语音和序列生成任务中。

Transformer 是一种强大的神经网络结构,本身并不等同于自回归,但在使用因果注意力(causal mask)时,可以实现严格的自回归生成,如 GPT 等大语言模型。自回归 Transformer 生成质量高,但推理阶段难以并行,速度受序列长度限制。

扩散模型采用完全不同的生成范式:通过逐步加噪并学习反向去噪过程,从随机噪声中恢复数据。它不按内容顺序生成,因此不是自回归模型,具有更好的并行性,在图像和视频生成中表现尤为突出。

总体而言,**自回归是一种生成思想,Transformer 是实现依赖建模的网络结构,而扩散模型是一条基于噪声还原的非自回归生成路径。**三者并非对立,而是针对不同数据类型和工程需求的互补方案。

一、什么是自回归(Autoregressive, AR)

自回归是一种建模思想,核心是:

用“过去的自己”来预测“现在或未来的自己”。

直观理解


二、经典数学形式(以时间序列为例)

AR(p) 模型

[ x_t = c + \phi_1 x_{t-1} + \phi_2 x_{t-2} + \dots + \phi_p x_{t-p} + \varepsilon_t ]

含义:

👉 只依赖自身历史,不依赖外部变量


三、机器学习中的广义自回归

在现代机器学习中,自回归是一种概率建模与生成范式

概率角度(链式法则)

对序列数据 (x = (x_1, x_2, \dots, x_T)):

[ P(x) = \prod_{t=1}^T P(x_t \mid x_1, \dots, x_{t-1}) ]

这一定义直接支撑了:


四、自回归与 Transformer 的关系

1. 关键澄清

👉 二者是正交概念,但经常结合使用。


2. 自回归 Transformer(以 GPT 为例)

训练机制

推理(生成)方式

输入: “机器学习”
→ 预测: “是”
→ 预测: “人工智能”
→ 预测: “的”
→ …

👉 严格一步一步生成,不能并行


3. Transformer 不一定是自回归

模型是否自回归原因
GPT因果注意力
BERT双向注意力 + Masked LM
Transformer Encoder无生成顺序
Transformer Decoder取决于 mask可自回归也可非自回归

五、自回归 vs 非自回归(补充对比)

维度自回归非自回归
生成方式顺序生成并行生成
推理速度
建模能力相对弱
代表模型GPTBERT、NAT

六、扩散模型:与自回归完全不同的生成哲学

1. 扩散模型在做什么?

扩散模型不是直接建模 (P(x)),而是通过两个过程:

正向扩散(加噪)

[ x_0 \rightarrow x_1 \rightarrow \dots \rightarrow x_T \approx \mathcal{N}(0, I) ]

反向扩散(去噪)

[ p_\theta(x_{t-1} \mid x_t) ]

👉 学习的是:如何一步步把噪声还原成真实数据


2. 为什么扩散模型不是自回归?

自回归模型

[ x_t \mid x_{1:t-1} ]

扩散模型

[ x_{t-1} \mid x_t ]

👉 不存在“从左到右”的内容生成顺序


3. 并行性差异(非常关键)

模型并行能力
自回归 Transformer
扩散模型
非自回归 Transformer

七、从“生成路径”统一理解三者

1. 生成路径对比

自回归 Transformer

token1 → token2 → token3 → …

扩散模型

随机噪声 → 模糊结构 → 清晰结构 → 完整样本


2. 用一句话总结

自回归:按“内容顺序”生成
扩散模型:按“噪声时间”还原
Transformer:用于建模依赖关系的强大网络结构


八、现实中的结合方式

1. Transformer + 自回归

2. Transformer + 扩散


九、最终心智模型总结表

维度自回归 Transformer扩散模型
概率建模链式法则反向马尔可夫
生成顺序内容顺序噪声时间
并行性
典型应用文本、代码图像、视频
主要瓶颈序列长度采样步数

十、一句话总总结

自回归是一种生成思想,
Transformer 是一种模型结构,
扩散模型是一种完全不同的生成路径。

它们并非对立,而是服务于不同数据形态与工程权衡的解决方案。


下篇文章
开发者快速变现神器,Polar开源平台上线啦!