OpenAI o1 使用链式推理的事实使其在数学、科学和编码等领域特别有效,在这些领域获得正确答案通常需要多个步骤。
计算机分配的新范例
OpenAI o1 的一个关键区别在于其计算资源的战略性重新分配。传统的法学硕士主要关注海量预训练数据集,而 o1 将重点转移到训练和推理阶段。
OpenAI o1 精密计算承诺
来源:OpenAI
上图显示了在面对困难的 AIME(美国数学邀请赛)考试时,增加的计算资源对 OpenAI o1 模型性能的影响。它提供了两个图表,每个图表代表模型相对于专用于训练或测试(推理)的计算能力的准确性。
两张图中都存在明显的正相关性:随着计算资源的增加,模型在第一次尝试解决 AIME 问题时的准确性也会提高。特别是,这种关系在测试时间图中更加明显,这表明在解决问题期间给模型更多的时间“思考”可以带来显着的性能提升。
这一观察结果强调了 o1 的计算密集型性质,强调了 委内瑞拉电话数据 它对大量计算资源的依赖。然而,这两张图的上升趋势也意味着通过更多的计算可以进一步提高精度,为人工智能推理能力的未来发展提供了有希望的途径。
OpenAI O1 基准测试:繁重推理任务中的最佳表现
为了展示 o1 与 GPT-4o 相比改进的推理能力,OpenAI 通过一系列具有挑战性的数学、编码和科学测试来评估该模型。
人体检查
人体检查表明,o1 始终优于 GPT-4o 和 o1-preview。
OpenAI o1 基准人类考试表现比较
实心条显示 pass@1 精度,阴影区域显示 64 个样本的多数(共识)投票性能。来源:OpenAI
也许最令人惊讶的观察结果是数学和编码基准测试中 GPT-4o 和 o1(甚至 o-1 预览)之间的巨大性能跳跃。
尽管科学领域的进步不太明显,但值得注意的是,o1-preview 和完全优化的 o1 模型在博士级科学问题上的表现都优于人类专家。这证明了 o1 解决复杂的现实问题的潜力,甚至在某些领域超越人类水平。