token危机解决? 扩散模型数据潜力3倍于自回归, 重训480次仍攀升

扩散语言模型（DLMs）是超强的数据学习者。

token 危机终于要不存在了吗？

近日，新加坡国立大学 AI 研究者 Jinjie Ni 及其团队向着解决 token 危机迈出了关键一步。

在当前大语言模型（LLM）的持续发展中，面临的挑战之一是可用的高质量训练文本数据（tokens）即将枯竭，并成为限制模型性能持续提升的关键瓶颈。另外，新增的高质量数据来源少，获取成本高，去重后更加稀缺。因此，当模型规模继续扩大，所需数据量按 Scaling Laws 成倍增加时，就出现了「优质 token 不够训练」的危机。

针对这一现象，该团队从零开始预训练了扩散语言模型（DLMs）与自回归（AR）模型，其中规模最高至 80 亿参数、4800 亿 tokens、480 个 epoch。

研究有以下三项重要发现：

在 token 数量受限的情况下，DLMs 优于 AR，并且具有超过 3 倍的数据潜力；

一个仅用 10 亿 tokens 训练的 10 亿参数 DLM，在 HellaSwag（常识推理基准）上可达 56%，在 MMLU（综合多任务语言理解基准）上可达 33%，无任何技巧、无挑选数据；

未出现性能饱和：重复训练次数越多，提升越明显。

此外，团队还剖析了并行研究《Diffusion Beats Autoregressive in Data-Constrained Settings》中的严重方法论缺陷 —— 以共同提升开放评审的标准！

Jinjie Ni 在社媒 X 上详细介绍了其团队的研究结论、研究方法，接下来我们一一来看。

结论 1：扩散语言模型（DLMs）是超强的数据学习者。

如上所述，团队从零开始预训练了一系列 DLMs，规模最高达 80 亿参数、4800 亿 tokens。结果提供了有力证据：在普通网页数据上进行重复训练时，DLMs 在数据受限场景下无论模型规模如何，都优于自回归（AR）模型，展现出显著更高的潜力且未出现性能饱和。

总体而言，DLMs 的最终数据潜力比 AR 模型高出三倍以上。

结论 2：重复越多，收获更多。

为了研究 DLM 训练中 token 的全部潜力，团队进行了额外实验：将同一份 10 亿 token 的数据集重复训练 480 个 epoch，总训练量达到 4800 亿 tokens。结果显示，模型在 HellaSwag 上取得约 56% 的准确率，在 MMLU 上取得约 33%，显著优于 AR 的约 41% 和约 29%。

令人惊讶的是，即使在如此极端的重复条件下，性能依然未出现饱和，这表明 DLMs 能够从固定的 10 亿 token 语料中提取到远超预期的有效信息。

「在验证集上出现过拟合的模型，在下游任务上的表现却持续提升。」为什么会这样呢？

团队可视化了多选评测中，真实答案与其他选项的平均负对数似然（NLL），以及它们之间的差值（△NLL）。即使在验证集上出现「过拟合」后，真实答案与其他选项的 NLL 差距（△NLL）依然持续扩大，这表明尽管验证损失在上升，模型的底层判别能力仍在不断提升。这一现象在域内数据和域外数据的训练中都同样存在。

虽然 DLMs 对数据重复具有较强的鲁棒性，但在训练足够长的 epoch 后，它们同样会发生过拟合。更大的唯一数据量可以延缓过拟合的出现，而更大的模型规模则会加速过拟合的到来。

为什么 DLMs 是超强的数据学习者呢？原因有二。

其一，如下图所示，网页文本数据并非完全因果结构！虽然用非因果方向建模会导致更高的损失，但它仍然是可行的。这意味着仅用纯因果方式来建模网页数据是一种浪费！借助扩散目标和双向注意力，DLMs 能够对数据进行双向建模，从网页数据中提取到更多信息。

其二，DLMs 是「超密集模型」，它们在计算上的超高密度（每个任务需要更多的 FLOPs）直接转化为更强的智能。

相比之下，AR 模型更优先考虑计算效率，而非数据潜力。它们的 Transformer 设计（包括教师强制和因果掩码）最大化 GPU 的使用效率，但限制了建模能力。随着计算成本下降，数据可得性反而成为关键瓶颈 —— 这正是团队研究 DLMs 的动力所在。

扩散目标要求在有效训练中，将预训练数据集中的每个数据点在多个掩码比例和组合下进行损坏，以便更精确估计期望值。这进一步解释了为什么数据重复训练能带来如此显著的收益。

巧合的是，一项同期研究「Diffusion Beats Autoregressive in Data-Constrained Settings」[1] 也探讨了类似主题。然而，团队在细致分析后，揭示了其中存在的若干方法论问题，可能导致结论存在偏差。

[1] 地址：https://arxiv.org/abs/2507.15857

在 [1] 的所有实验中，研究者使用了损失函数 (1)，但未做出明确的理论解释。然而，这个损失函数与理论基础更扎实、被广泛采用的掩码扩散语言建模损失 (2) 有显著差异。从理论上可以证明损失函数 (1) 并不能忠实地表示模型似然，这可能会对其结论造成严重影响。

团队还注意到，[1] 在最新的 arXiv v3 版本中对原始草稿进行了修改，增加了一个线性时间依赖的重新加权项。但仍假设其所有实验均使用了公式 (1)，因为论文中图 4 (b) 的损失范围与公式 (1) 的预期表现高度吻合。团队期待 [1] 的代码库（在本文撰写时仍为空仓库）以及社区对相关实验的复现。

问题来了：验证集损失是比较 AR 和 DLM 的好指标吗？简短来说：当损失函数的形式本身有问题时，当然不是。它们并不代表相同的含义；即使损失函数形式正确，也依然不是好指标。

原因包括如下：

AR 测量的是精确的负似然，而 DLM 测量的是一个上界；

更低的损失并不意味着更强的能力，这一点在上文的讨论中已有体现。

此外，[1] 报告的 AR 基准测试结果距离最佳水平相差甚远。换句话说，[1] 实际上是在拿一个尚未训练到最佳状态的 AR 检查点，与一个最佳的扩散模型检查点进行比较。这是不公平的。

此外，[1] 在比较 AR 与扩散模型的过拟合趋势时，为 AR 使用了更大的模型规模和更少的唯一训练 token 数量。这种设置并不公平，因为更大的模型在训练数据多样性不足的情况下，本身就更容易更早出现过拟合。

最后，[1] 中使用的 scaling law 公式假设验证集损失不会下降，但这一假设在实际中并不成立，因为过拟合会导致验证损失上升。这个有缺陷的假设会导致拟合效果不佳，并使基于其预测得出的任何结论产生偏差。

目前，团队正在用一种疯狂的设置训练一个大模型，并在之后发布完整论文。

更多细节内容请参考博客和即将发布的论文。

参考内容：https://x.com/NiJinjie/status/1954177095435014533