OpenAI o1模型推理能力大幅提升的背后：重复采样如何提升AI推理能力

发表评论
55,885 views

A+

所属分类：AI

今天OpenAI对外发布了o1模型，最大的特点便是推理能力大大增强，推理速度大大变慢。传统大模型都在比拼降低响应延迟的时候，OpenAI竟然做了一个“超慢”模型。

为什么会这样？

答案就在下面这张图里，它解释了o1的推理工作原理，也回答了它为啥变慢。

o1模型的特点是在回答前进行思考，并不直接给出推理结果，响应用户之前会产生长串的内部思维链，生成不同的方法，进行验证尝试，有成功的，也有失败的，但不会展示给用户，就像是打草稿一样，直到得出答案，最后再丢弃草稿，以保持回答简洁，上下文干净。这样的好处是既能进行复杂推理，又能保持对话的连贯和效率。也正是如此，为了区分内部推理使用的token与输入输出token，引入了推理token的概念，也就是“草稿”token，值得注意的是，这一token量可能会大大高于输入输出token数，进而带来很高的使用成本。

测试时计算

这里先不谈创新的大规模强化学习算法在模型训练时对性能的提升因素，而聚焦在另一个提升模型性能的因素上，这就是测试时计算。恰好，前几天在这篇文章《OpenAI前研究科学家开源面向未来的提示工程库 ell，重新定义提示工程》里提到了测试时计算的概念（他也来自openAI！可见他们不仅首先提出了训练时的缩放定律（scaling laws），也很早就洞察到推理时缩放定律），其诀窍便是”别人问问题，别急着回答，先在心里打草稿，想好了再回答“，虽然回答速度慢了，但是准确率高了。这一过程中一个很重要的内容便是重复采样。

咱们今天介绍这一领域的代表论文《Large Language Monkeys: Scaling Inference Compute with Repeated Sampling》，该研究揭示了重复采样（repeated sampling）能够显著提升AI模型的推理能力，特别是在编程和数学等领域。

重复采样：让AI多试几次

重复采样的核心思想很简单：不要局限于模型的单次输出，而是让它生成多个答案，然后从中选择最佳结果。这种方法类似于人类在解决复杂问题时的"头脑风暴"过程，通过多次尝试来提高找到正确解决方案的概率。

研究发现，随着采样次数的增加，模型解决问题的覆盖率（coverage）呈现出显著的增长。例如，在CodeContests编程竞赛数据集上，Gemma-2B模型的覆盖率从单次尝试的0.02%飙升至10,000次尝试的7.1%，增长了惊人的300多倍！

更令人兴奋的是，这种提升效果在多个任务和模型上都得到了验证。从数学问题到形式化证明，再到实际的软件工程任务，重复采样都展现出了强大的效果。

小模型也能办大事

重复采样的一个重要应用是amplify（放大）较小模型的能力。在SWE-bench Lite（一个真实世界的GitHub问题数据集）上，DeepSeek-Coder-V2-Instruct模型单次尝试的成功率仅为15.9%。然而，当我们允许它尝试250次时，成功率飙升至56%，远超当前单次尝试的最高水平43%（由更强大的GPT-4和Claude 3.5 Sonnet模型混合实现）。

这一发现具有重要意义：它表明，我们可以通过增加推理计算量来"放大"较弱模型的能力，甚至超越更强大但只有一次尝试机会的模型。这为AI应用提供了一种新的优化思路，特别是在资源受限或需要控制成本的场景下。

推理计算的"摩尔定律"？

研究中一个有趣的发现是，覆盖率的增长似乎遵循一种类似于摩尔定律的规律。在许多情况下，log(覆盖率)与采样次数的关系近似于幂律分布。这意味着，我们可能正在见证一种新的"推理计算的缩放定律"的诞生，类似于训练计算量与模型性能之间已经被广泛研究的关系。

这一发现不仅具有理论意义，还为实践提供了指导。它暗示着我们可以通过预测来估算需要多少次采样才能达到特定的性能水平，从而更好地平衡计算资源和期望结果。

成本效益的新视角

重复采样还为AI应用的成本效益提供了新的思考角度。研究发现，在某些任务中，使用较小的模型进行多次采样可能比使用大型模型进行单次尝试更具成本效益。例如，在SWE-bench Lite任务中，使用DeepSeek模型进行5次采样不仅解决的问题更多，而且成本还比使用GPT-4或Claude 3.5 Sonnet进行单次尝试低3倍以上。