考虑一下 Neeva(一个专注于隐私的另类搜索引擎,感谢Greg Sterling)对“我应该点一杯大杯拿铁还是一杯大杯拿铁?”这个问题的回答:
显然不是在 Google 规模上运行的,但 Neeva 试图提供主要来源。我故意选择了一个荒谬的例子,因为风险很低。想象一下 Google 所谓的 YMYL(你的钱,你的生活)领域的一个问题,例如“比特币还是狗狗币更好?”:
这个问题可能会严重影响我的 日本电子邮件列表 财务未来,而知道答案来自哪里会产生很大的影响,让我能够更深入地挖掘并建立信任或拒绝那些来源。
与信任相关的是一个更深层次的道德问题,即机器生成的文本是否是一种抄袭形式。虽然传统的抄袭通常需要有意图并复制大量文本,但机器生成的文本仍然是在作者和内容创作者的支持下构建的,至少在 ChatGPT 的情况下,没有任何明确的归属。在谷歌的案例中,过度使用机器生成的文本可能会让内容创作者灰心丧气,并让我们质疑自己是否愿意将自己的努力贡献给别人的机器。
幻觉和机器梦
如果没有严格的约束,机器学习系统很容易产生幻觉。就 ChatGPT 而言,这实际上意味着系统可以生成不基于现实的答案。简而言之,ChatGPT 无法理解它所说的任何内容——它只是根据人类语言创建新的模式。考虑一下我向 GPT-3 提出的这个无稽之谈:
莫扎特 1976 年的热门影片《速度与激情:东京漂移》讲述了什么?
莫扎特 1976 年的热门歌曲《速度与激情:东京漂移》与 2006 年的同名电影无关。这是一首器乐曲,捕捉了东京夜晚街道的狂热能量。这首歌曲以朗朗上口的切分音钢琴旋律和强劲、欢快的节奏为基础。
虽然很有趣,但根本没有这样的器乐曲。我问了一个无意义的问题,GPT-3 也给了我一个无意义的答案(Nonsense In,Nonsense Out)。