靠主观判断和对有

Buy Database Forum Highlights Big Data’s Global Impact
Post Reply
tasmih1234
Posts: 383
Joined: Sat Dec 28, 2024 3:19 am

靠主观判断和对有

Post by tasmih1234 »

我们希望它既具有事实性又充满同理心。有些用户可能正在考虑转行到他们目前并不十分适合的领域,并需要帮助了解差距和下一步行动。不能确保这些细节的一致性就没法让保持标注者保持评分的一致性。 扩展标注 最初,团队中的每个人都参与了讨论(产品、工程、设计等),但我们知道我们需要一个更加有原则的方法,拥有一致且多样化的标注者。我们内部的语言学家团队建立了工具和流程,使我们能够每天评估多达次对话,并获得以下方面的指标:整体质量分数、幻觉率、负责任的人工智能违规情况、连贯性、风格等。这成为我们了解趋势、迭代提示词并确保我们准备好上线的主要参考点。

自动评估是终极目标,但仍在进行中:没有它,工程师只能依限示例的测试,并且需要天以上的时间才能获得反馈。我们正在构建基于模型的评估器来估算上述指标,并允许更快的实验,我们在幻觉检测方面取得了一些 奥地利赌博数据 成功(但这并不容易!)。 智能体产品案例深度思考和分享(全球顶级公司实践细节,做智能体必读) 图:我们执行的评估步骤。 工程师进行快速、粗略的评估以获得方向性度量和判断。 标注者提供更详细的反馈,但大约需要天的时间。测试成员是最终的评判者,并为我们提供规模性的反馈,但单个更改的某些度量可能需要天以上的时间。

然而,我们低估了检测和减轻幻觉现象的挑战,以及质量评分提升的难度(注:原文是速度应该是笔误)——起初迅速攀升,随后便迅速达到瓶颈期。 对于那些容忍一定错误率的产品而言,采用生成式进行构建无疑是一种令人耳目一新的直接方法。但这也带来了不切实际的期望,初期的快速进展营造了一种“即将达成”的错觉,而随着后续每%提升的改进速度显著放缓,这种快速改进的错觉变得令人沮丧。 构建该助手感觉像是偏离了“原则性”的机器学习,而更像是在专家系统中调整规则。因此,尽管我们的评估变得越来越复杂,但我们的“训练”却主要是提示词工程,这更像是一门艺术而非科学。
Post Reply