本文最初发表于 QBox 的博客,发布于 Cyara 收购 QBox 之前。 了解更多关于 Cyara + QBox 的信息。
您已努力改进您的聊天机器人模型,现在它在自动化测试中的正确性得分非常高(如果适用 巴哈马电报号码数据 的话,也希望在可信度和清晰度方面也取得不错的成绩)。但您的工作并未就此止步,因为模型的整体正确率已经达到 80% 或更高。您的聊天机器人改进之旅的下一步是开始交叉验证测试。
Cyara 的自动化聊天机器人测试解决方案可让您确保开发每个阶段的质量。
建议进行交叉验证测试,因为它不仅有助于查看训练数据中是否存在盲点;它还有助于识别聊天机器人模型是否过度拟合(该模型对其现有训练数据集进行了非常精细的调整,但在面对新数据时表现不佳,即使它只是与训练集有一点点偏差)。
警惕过拟合模型至关重要,因为它们可能具有欺骗性,并会让聊天机器人构建者/训练者产生虚假的安全感。表面上看,该模型似乎是成功的,因为在自动化测试中总体得分很高。但实际上,它的预测能力很弱,因为该模型没有从现有训练集中获得太多学习价值,无法将其学到的知识成功地应用于现实世界。