S型智能增长曲线-从Deepseek R1看Scaling Law的未来

Scaling Law 过去是、现在是、将来也会继续是推动大模型快速发展的第一动力,我自己一般是通过它来对大模型未来发展悲观乐观做总体判断的,只要目前 Scaling Law 仍然成立,其实就没有看衰大模型未来发展的理由,如果硬要看衰,那被打脸的概率相当之大,真正可以看衰大模型未来发展的时机是什么?如果什么时候发现 Scaling Law 熄火了,此时看衰,赌对的概率会大很多。

最近之所以 Deepseek R1 火出天际,一个重要原因是它复现并开源了大模型 Post-Training 和 Inference 两个阶段 Scaling Law 的具体做法,模型效果拔群。

  • 关于 Scaling Law,我一直有几个疑问,比如 Scaling Law 曲线可以无限增长吗?
  • 再比如,目前我们有三种 Scaling Law(Pre-train、RL、Test Time),它们组合起来的 Scaling Law 看起来是什么样子?
  • 诸如此类的问题。

本文后面打算用 S 型智能增长曲线来解释我们目前看到的 Scaling Law 的一些现象。其实智能发展应该遵循 S 型曲线,这不是新观点,LLM 最大的反对派 Lecun 和第二大反对派马库斯,去年在 Twitter 上就反复提过这个观点,以此作为否定 LLM 未来发展的重要依据。我个人是比较赞同用 S 型曲线来描述 AI 智能发展的,但可惜的是,关于这个话题并没有后续更深入的讨论,所以计划把它和 Scaling Law 联系起来,期望对此能有更具深度的一些思考,这里很多都是我自己的推断,还请谨慎参考,权且当做一种思想实验即可。

1- AI 智能的 S 型增长曲线

1.1- 世上没有永远持续的增长,只有 S 型曲线式增长

image|942x547

世界上不存在无限增长的事情(说你呢,Scaling Law),这基本是个定则,即使把目光拉长放到宇宙级视野里,宇宙中最大速度也不可能超过光速,宇宙它再大也总有个边界,是吧?所以,我觉得很可能各种看着貌似可以无限增长,但那是因为我们看它的时间窗口还是太短,S 型增长曲线(Sigmoid 函数刻画的非线性曲线)可能才是更准确对增长准确描述的曲线,要我猜 AI 智能增长趋势大概也是如此。

随着时间的发展(参考上图),早期 AI 相关技术处于探索期,不确定性大,进展缓慢,产生重大技术突破后,进入技术突破期,AI 智能呈现指数增长态势(Sigmoid 函数快速增长阶段),之后进入技术成熟期,AI 智能进入平台期,增长缓慢或者停止增长。

假设我们此刻站在快速增长期,此时对未来进行判断,会看到陡峭的智能增长曲线,会倾向于把这种

高速增长外推,以为 AI 智能会永远像现在这样保持指数级的高速增长,但事实是:如果加入短期未来时间增量Δshort-time,看着 AI 智能确实是处于高速增长,但若把时间周期放长,加入Δ long-time,则会看到不同的景象,Sigmoid 智能增长曲线进入平台期,就是说 AI 智能增长这事情不会一直这样持续下去,早晚总会到顶。当然,这不代表 AI 的智能不会超过人类平均水平,甚至达到 SGI 的超人类水平,这两者并不矛盾。

1.2- S 型智能曲线的叠加仍然是 S 型曲线

image

Sigmoid 函数(参考左图中的公式)有个很好的性质:若我们把多个 S 型函数累加,形成的曲线仍然是 S 型曲线,不过它的取值范围区间拓宽了。参考上图,三个取不同 K 值(K 值大小决定了 Sigmoid 函数快速增长区间走势的陡峭程度,K 越小,越平缓,K 越大,越陡峭,请记住这个知识点,后面我们会用到)的 Sigmoid 函数,累加后得到的曲线也是 S 型曲线,只是它的最大高度由 1 拓展到了 3(每个 Sigmoid 函数取值范围[0,1],三个叠加就是 3*[0,1]=[0,3])。

尽管最近两年大家都在谈大模型的 Scaling Law,但很明显对它的理解整体还比较表面化(包括很多学术论文),不少市面上咖位比较大的大佬出来讲,你会发现他讲的观点是非常随意的,很明显没有深入思考过,有些甚至存在明显的错误(如果我们以 Chinchilla Scaling Law 作为标准答案来看的话)。

我一直试图思考产生这个现象背后的原因,觉得大模型 Scaling Law 里的关键秘密很可能就隐藏在类似上图的 S 型曲线叠加里(个人观点无实证,谨慎参考),对照上面的 S 型曲线叠加图,我这里列出两个问题,您可以费心思考一下:

1.2.1- 问题 1

您能用这个知识点解释下 Pre-Training 阶段的 Scaling Law 为何会表现出我们目前看到的现象吗?

1.2.2- 问题 2

您能用这个知识点解释下 Pre-Training 阶段的 Scaling Law 和 RL Scaling Law,乃至 Test time Scaling Law 三者之间的关系吗?

我们下面就探讨这两个问题,不过我想很多聪明的朋友可能已经知道我想要说什么了,相信我,第二个问题可能比较容易想到,第一个其实是不太容易的。

2- 从 S 型曲线推导 Scaling Law 的未来

3- 三种 Scaling Law

image|942x365

我们知道,大模型主要有三个阶段:预训练、后训练和在线推理(inference)。在 24 年 9 月前,大模型领域只有一个 Scaling Law,就是预训练阶段的 Scaling Law,之前炒的比较热的 "Scaling Law 撞墙说 ",指的是这个阶段。

OpenAI o1 推出后,另外两个阶段不再孤单,也各自拥有了姓名,产生了各自的 Scaling Law,对应后训练阶段的强化学习 Scaling Law(RL Scaling Law) 和在线推理阶段的 Inference Scaling Law(也叫 Test Time Scaling Law)。

三个阶段 Scaling Law 核心思想是一样的:就是说在本阶段,如果增加算力,则大模型效果会持续提升。当然上图中每个阶段的 Scaling Law 之所以呈现 S 曲线,这是我画的,我的假设如本文开头所说,不存在无限增长的曲线,所以 Scaling Law 曲线也呈现出 S 型曲线的形态。这一点估计很多人不同意,认为 Scaling Law 会持续指数增长? 这个算非共识,我们暂且按下不表。

是为目前现状。

4- 用 S 型增长曲线解释 Pre-Train 阶段的 Scaling Law

image

我觉得用 S 型增长曲线叠加,大致可以解释我们当前看到的预训练阶段 Scaling Law 产生的各种现象。我个人习惯把大模型的智能粗分为三大类:语言智能、世界知识智能和逻辑推理智能。在预训练阶段,大模型学习这三类智能的难易程度为:语言智能最容易学习,也学得最好;其次是世界知识,最难的是逻辑推理智能,在基座模型角度,这方面的总体能力是比较弱的(上述现象,有大量实证证据,可视为事实)。

如何用 S 型曲线叠加,来解释大模型预训练阶段 Scaling Law 出现的这种现象呢?参考上图,我觉得,可以认为语言、世界知识和逻辑推理,作为基本能力,各自都有对应的一个 Sigmoid 函数,随着算力的增加(增加模型大小和数据量),这方面的能力持续增加,且三个基本能力的 Sigmoid 函数各自对应不同的 K 值,K 值越小走势越平缓,意味着学习难度越大,因为走势平缓代表增加很多算力或数据只获得了少量的能力提升。很明显,语言能力对应的 K 值最大,最容易学习,其次是世界知识,K 值最小的是逻辑推理能力。

而大模型的总体智能水平 Scaling Law 曲线,是三个 S 型曲线的叠加,前面我们提过,叠加后的曲线仍是 S 型的,这对应 Scaling Law 测试到的 Next Token Prediction 对应 Loss 曲线(Loss 是越小越好,上面作为智能衡量是反过来的,所以越大越好)。

那新问题来了:为啥语言能力最容易被大模型学到,而逻辑推理能力最难被学到呢?我个人经过思考,得出的可能原因或猜想是这样的:

" 能力密度 " 猜想:决定某项能力 Sigmoid 函数对应 K 值大小的主要因素,取决于训练数据中包含体现此种能力的数据在总体数据的占比情况,可称之为 " 能力密度 ",即:

A 项能力的能力密度=训练数据中体现 A 项能力的数据总量/训练数据总量

比如对于语言能力来说,任意一份文本,都包含大量语言要素在内(词法、句法、语义等),所以训练数据中包含体现语言能力的 " 能力密度 " 最高,于是对应 Sigmoid 函数的 K 值就越大,能力上升曲线就越陡峭,意味着使用少量算力或数据对大模型的语言能力就有明显提升,但是随着数据增加,相关智能曲线也很容易见顶走平。反过来,能体现逻辑推理能力的数据一般包括:代码、数学、科学题目等,很明显,这种数据在数据的自然分布中占比天然就很小,所以逻辑推理能力对应 Sigmoid 函数 K 值就很小,导致学习难度很高,即使大量增加总体数据,效果提升也不明显。

如果归纳下最近两年先进大模型的进展,除了不断增加模型大小和数据总量外,从数据层面,我认为大模型快速提升智能最关键的方法有两条:

4.1- 关键方法一

大量增加代码、数学等能提升逻辑推理能力的数据在总数据量中的占比。这种数据因为天然数据量少,所以可看成一种更珍贵的数据资源。

4.2- 关键方法二

越是珍贵的数据资源,越要把大比例这类数据放在预训练的最后阶段,比如目前常见的所谓预训练最靠后的 " 退火 " 阶段,其实就是把大比例逻辑推理类数据放在最后一个阶段,去调整模型参数。

至于其它具体技术手段重要吗?比如是 MOE 还是 Dense?或者其它技术,我个人认为不是太重要,很多最近两年提出真正有效的技术,大部分都对降低大模型训练和在线推理的成本有巨大帮助,但对于提升模型智能,可能帮助不大,真正帮助大的有可能是上面两个数据因素。

我举个例子,比如 Deepseek V3 提出的 Multi-Token Prediction,这是个纯算法改进,V3 论文也给出了实验数据,证明对大模型效果有正面作用,看着貌似是通过算法优化带来模型质量的提升是吧?但是,如果你仔细分析过实验数据,结论大概是这样的(我自己分析推断的,不保真):随着模型规模变大,Multi-Token Prediction 带来的收益是递减的,如果规模到了 V3 最后版本的 671B 大小,大概它的收益就没有了。它的真正作用是什么呢?如果在线推理的时候,把它和 " 投机解码 " 联合起来,在线推理速度能提升大约 1.83 倍,也就是说,其实 Multi-Token Prediction 的主要作用是用来提升在线推理速度的,但是如果你只看论文,不仔细分析的话,很容易把它误读为用它是来提升大模型智能的。

image
跑题了,说回来。从 S 型曲线叠加的角度,如何解释上述两个关键做法起到的作用呢?先看关键做法一,增加代码、数学题目等的数据占比,等价于什么?等价于增加逻辑能力的能力密度,也就是加大对应 Sigmoid 函数的 K 数值,这等于改变了逻辑推理能力 Sigmoid 函数走势的陡峭程度 (参考上图 New Logic 曲线)。也就是说,在相同算力条件下,通过这种方法可以快速提升大模型的逻辑推理能力,导致大模型总体智能快速增加。(有人问了:你增加逻辑题目占比,那么语言和世界知识数据就会降低占比,这两方面能力不就降低了吗?我觉得,如果做公平对比实验的话,大概会看到这种现象。但是逻辑推理能力对于提升大模型智能更为重要,所以这种损失是合算的)。

image|942x522

再看关键方法二,之所以把相当比例的珍贵数据(逻辑推理类)放在训练靠后的阶段能快速提升大模型智能,其实也跟增加逻辑推理的 " 能力密度 " 有关系。这等价于在训练靠后的阶段,临时把逻辑推理能力对应 Sigmoid 函数的 K 数值调得非常大,参考上图绿色曲线阴影部分曲线的突然增长(退火阶段,大部分都是逻辑推理类数据,等于在这个训练时间范围内,逻辑推理类数据占比急剧增大,能力密度剧烈提升,对应 Sigmoid 函数的 K 值大幅提升)。

5- 三阶段 Scaling Law 智能叠加

image

如何用 S 型智能增长曲线叠加原理,来解释目前阶段大模型的 Scaling Law 呢?这个貌似比较直观(参考上图),我们原先只有预训练阶段的 Scaling Law,普遍认为已经走缓(绿色曲线,对应 Sigmoid 的 K 数值相对应该较低);而 O1/R1 类模型开启了 RL 和 Test Time 阶段的新型 Scaling Law。很明显,这两个阶段 Scaling Law 对应 Sigmoid 函数 K 数值应该比较大,因为只需增加较少的算力,大模型的智力水平就得到了剧烈的增长,说明它们对应的走势是比较陡峭的(我觉得 RL 阶段比 Test Time 阶段应更陡峭些)。

严格意义上,RL 和 Test Time Scaling law 并不应和预训练阶段 Scaling Law 等效,它们增强的主要是逻辑推理能力,所以 RL Scaling Law 其实是在原先预训练阶段 Scaling Law 组成成分之一的逻辑推理能力 S 型曲线后面,再接上了一个新的 S 型曲线,然后再接上 Test Time 阶段逻辑推理能力的新 S 型曲线,类似一个接力赛。

不论怎样,如果我们把三个 S 型曲线叠加,就得到了智力更高的大模型,以及它对应的 Scaling Law,也呈现出 S 曲线形态。

我个人比较相信的一点是:无论是 RL 还是 Test Time,它们的 Scaling Law 曲线也应是 S 型的,就是说总会到顶,或者说早晚要撞墙。也许现阶段最值得讨论的问题是:

  • 它们两个何时或者什么条件下会撞墙?
  • 如果撞墙了,有没有新的 Scaling Law 能顶替上来?
  • 如果有,那么就可以往图上新增一个 S 型曲线,这会进一步提升大模型的整体智能(大模型摩尔定律?:通过技术创新,不断产生新的 S 型 Scaling Law 子曲线,叠加到现有曲线中,以此来制造出大模型效果整体仍在指数上升通道假象的 S 型曲线。)而且,最关键的问题可能是:如果有,那么,这个新的 Scaling Law 会是什么?这可能是当前阶段最有价值的一个问题。