为这些阶段分配更多的计算可以在复杂的推理能力方面产生显着的收益。

Buy Database Forum Highlights Big Data’s Global Impact
Post Reply
ujjal22
Posts: 48
Joined: Wed Dec 18, 2024 3:35 am

为这些阶段分配更多的计算可以在复杂的推理能力方面产生显着的收益。

Post by ujjal22 »

OpenAI o1 使用链式推理的事实使其在数学、科学和编码等领域特别有效,在这些领域获得正确答案通常需要多个步骤。

计算机分配的新范例
OpenAI o1 的一个关键区别在于其计算资源的战略性重新分配。传统的法学硕士主要关注海量预训练数据集,而 o1 将重点转移到训练和推理阶段。

OpenAI o1 精密计算承诺

来源:OpenAI

上图显示了在面对困难的 AIME(美国数学邀请赛)考试时,增加的计算资源对 OpenAI o1 模型性能的影响。它提供了两个图表,每个图表代表模型相对于专用于训练或测试(推理)的计算能力的准确性。

两张图中都存在明显的正相关性:随着计算资源的增加,模型在第一次尝试解决 AIME 问题时的准确性也会提高。特别是,这种关系在测试时间图中更加明显,这表明在解决问题期间给模型更多的时间“思考”可以带来显着的性能提升。

这一观察结果强调了 o1 的计算密集型性质,强调了 委内瑞拉电话数据 它对大量计算资源的依赖。然而,这两张图的上升趋势也意味着通过更多的计算可以进一步提高精度,为人工智能推理能力的未来发展提供了有希望的途径。

OpenAI O1 基准测试:繁重推理任务中的最佳表现
为了展示 o1 与 GPT-4o 相比改进的推理能力,OpenAI 通过一系列具有挑战性的数学、编码和科学测试来评估该模型。

人体检查
人体检查表明,o1 始终优于 GPT-4o 和 o1-preview。

OpenAI o1 基准人类考试表现比较

实心条显示 pass@1 精度,阴影区域显示 64 个样本的多数(共识)投票性能。来源:OpenAI

也许最令人惊讶的观察结果是数学和编码基准测试中 GPT-4o 和 o1(甚至 o-1 预览)之间的巨大性能跳跃。

尽管科学领域的进步不太明显,但值得注意的是,o1-preview 和完全优化的 o1 模型在博士级科学问题上的表现都优于人类专家。这证明了 o1 解决复杂的现实问题的潜力,甚至在某些领域超越人类水平。
Post Reply