大语言模型这两年的关键进展

2026年6月20日 · 大模型综述

过去两年，大语言模型（LLM）从”能写一段通顺的话”演进到”能完成一项有规划的任务”。变化看似很快，但拆开来看，主要沿着几条清晰的主线推进。这篇文章把这些主线梳理一遍，帮助你建立一个整体的认知框架。

规模化与涌现能力

最早被广泛讨论的，是”规模法则”（Scaling Law）：当模型参数量、训练数据量和算力同步增长时，模型在各类任务上的表现会平滑地提升。更有意思的是”涌现能力”——某些能力（比如多步算术、复杂指令遵循）在模型小的时候几乎为零，达到一定规模后突然出现。

不过近一两年，业界的重心从”单纯堆大”转向了”堆得更聪明”。高质量数据的配比、数据去重与清洗、训练课程的设计，往往比单纯增加参数更划算。换句话说，规模仍然重要，但”喂什么”和”怎么喂”变得同样关键。

上下文窗口的扩展

早期模型一次只能”看到”几千个 token，稍长的文档就放不下。如今主流模型的上下文窗口已经扩展到几十万甚至上百万 token，这让”把整本手册、整个代码库丢进去问问题”成为可能。

支撑这一点的有两类工作：一是位置编码的改进（如旋转位置编码 RoPE 及其外推技巧），让模型在没见过的长度上也能稳定工作；二是注意力机制的工程优化（如 FlashAttention），让长序列的计算和显存开销可控。需要提醒的是，“窗口大”不等于”用得好”——长上下文里信息检索的准确率（俗称”大海捞针”）仍是衡量模型质量的重要指标。

对齐：让模型”听话且有用”

一个只会预测下一个词的模型，并不天然知道该怎么回答人类。对齐（Alignment）就是把”会说话”调教成”会好好回答”的过程。

主流做法经历了从 RLHF（基于人类反馈的强化学习）到更轻量方法的演变。RLHF 先训练一个奖励模型来表达人类偏好，再用强化学习优化语言模型，效果好但流程复杂、训练不稳定。后来出现的 DPO（直接偏好优化）等方法，跳过显式的奖励模型，直接用偏好数据优化，工程上更简单，逐渐成为很多团队的默认选择。

推理能力与推理模型

最近最受关注的变化，是”推理模型”的兴起。普通模型倾向于”脱口而出”，而推理模型会先在内部展开一长串思考（思维链，Chain-of-Thought），再给出答案。通过在训练中鼓励模型”想清楚再回答”，它们在数学、代码、逻辑题上的表现有明显提升。

这背后的一个重要观念转变是”测试时计算”（test-time compute）：同一个模型，允许它在回答时多花一些算力去思考、自我检查、尝试多条路径，质量就能提高。这意味着能力的提升不再只来自训练阶段，也可以来自推理阶段的策略。

小结

把这几条线放在一起看，大模型的进步并不神秘：更聪明的规模化、更长且更可用的上下文、更简洁有效的对齐、以及把”思考”显式化的推理能力。理解这个框架，你就能更冷静地看待层出不穷的新模型——它们大多是在这几条主线上各自往前走了一步。

← 返回首页