大语言模型这两年的关键进展

过去两年,大语言模型(LLM)从”能写一段通顺的话”演进到”能完成一项有规划的任务”。变化看似很快,但拆开来看,主要沿着几条清晰的主线推进。这篇文章把这些主线梳理一遍,帮助你建立一个整体的认知框架。

规模化与涌现能力

最早被广泛讨论的,是”规模法则”(Scaling Law):当模型参数量、训练数据量和算力同步增长时,模型在各类任务上的表现会平滑地提升。更有意思的是”涌现能力”——某些能力(比如多步算术、复杂指令遵循)在模型小的时候几乎为零,达到一定规模后突然出现。

不过近一两年,业界的重心从”单纯堆大”转向了”堆得更聪明”。高质量数据的配比、数据去重与清洗、训练课程的设计,往往比单纯增加参数更划算。换句话说,规模仍然重要,但”喂什么”和”怎么喂”变得同样关键。

上下文窗口的扩展

早期模型一次只能”看到”几千个 token,稍长的文档就放不下。如今主流模型的上下文窗口已经扩展到几十万甚至上百万 token,这让”把整本手册、整个代码库丢进去问问题”成为可能。

支撑这一点的有两类工作:一是位置编码的改进(如旋转位置编码 RoPE 及其外推技巧),让模型在没见过的长度上也能稳定工作;二是注意力机制的工程优化(如 FlashAttention),让长序列的计算和显存开销可控。需要提醒的是,“窗口大”不等于”用得好”——长上下文里信息检索的准确率(俗称”大海捞针”)仍是衡量模型质量的重要指标。

对齐:让模型”听话且有用”

一个只会预测下一个词的模型,并不天然知道该怎么回答人类。对齐(Alignment)就是把”会说话”调教成”会好好回答”的过程。

主流做法经历了从 RLHF(基于人类反馈的强化学习)到更轻量方法的演变。RLHF 先训练一个奖励模型来表达人类偏好,再用强化学习优化语言模型,效果好但流程复杂、训练不稳定。后来出现的 DPO(直接偏好优化)等方法,跳过显式的奖励模型,直接用偏好数据优化,工程上更简单,逐渐成为很多团队的默认选择。

推理能力与推理模型

最近最受关注的变化,是”推理模型”的兴起。普通模型倾向于”脱口而出”,而推理模型会先在内部展开一长串思考(思维链,Chain-of-Thought),再给出答案。通过在训练中鼓励模型”想清楚再回答”,它们在数学、代码、逻辑题上的表现有明显提升。

这背后的一个重要观念转变是”测试时计算”(test-time compute):同一个模型,允许它在回答时多花一些算力去思考、自我检查、尝试多条路径,质量就能提高。这意味着能力的提升不再只来自训练阶段,也可以来自推理阶段的策略。

小结

把这几条线放在一起看,大模型的进步并不神秘:更聪明的规模化、更长且更可用的上下文、更简洁有效的对齐、以及把”思考”显式化的推理能力。理解这个框架,你就能更冷静地看待层出不穷的新模型——它们大多是在这几条主线上各自往前走了一步。

← 返回首页