而不是直接旨在产生我们的结果

ujjal22 · Post by **ujjal22** » Tue Jan 07, 2025 6:43 am

在 RFT 中，模型对标签的暴露是间接的，因为它主要用于创建奖励信号，而不是作为直接目标。这就是为什么模型预计在 RFT 中需要更少的标记数据：模型旨在找到产生我们想要的结果的模式，，这预示着更多的泛化倾向。

让我们总结一下与此表的差异：

功能

监督微调 (SFT)

强化微调 (RFT)

中心思想

直接使用标记数据训厄瓜多尔电话数据练模型以匹配所需的结果。

使用“Grader”来奖励模型生成所需的结果。

标签使用

模型模仿的直接目标。

它间接用于为模型创建奖励信号。

数据有效性

需要更多标记数据。

由于泛化，可能需要较少的标记数据。

人类参与

仅在初始数据标注中。

仅在“Grader”功能的设计中。

概括

它可能会过度拟合训练数据，从而限制泛化。

由于关注模式和奖励，具有更大的泛化潜力。

符合人类偏好

有限，因为它仅基于模仿标记数据。

如果“评级”准确反映了人类的偏好，您就可以更好地调整。

示例

微调语言模型以生成特定类型的文本格式（例如诗歌或代码）。

训练语言模型来生成创意内容，由“评级者”根据其原创性和连贯性进行评判。

在阅读 RFT 时，我不禁想到了另一种经典且有效的技术，称为基于人类反馈的强化学习（RLHF）。在 RLHF 中，人类注释者提供有关如何响应指令的信息，并且训练奖励模型以将这些信息转换为数字奖励信号。然后使用这些信号通过近端策略优化 (PPO)来调整预训练模型的参数。

尽管 RFT 将人类反馈脱离了循环，并依靠 Grader 将奖励信号映射到模型响应，但将强化学习融入到 LLM 微调中的思想仍然与 RLHF 一致。

有趣的是，RLHF 是他们之前在 ChatGPT 训练过程中用来更好地对齐模型的方法。根据公告视频，RFT是OpenAI内部使用的方法来训练其前沿模型，例如GPT-4o或o1 mode pro。

结论
强化学习之前已被整合到LLM微调中，但OpenAI的强化微调似乎将其提升到了一个新的水平。

尽管 RFT 的确切机制、发布日期以及对其有效性的科学评估尚未公布，但我们可以祈祷 RFT 能够尽快推出并像它承诺的那样强大。

赫萨姆·谢赫·哈萨尼的照片
作者
希萨姆·谢赫·哈萨尼
人工智能硕士生、AI技术作家。我分享对最