XLNet 和 GPT-2 一样,似乎也存在类似的问题。在这种情况下,hypoglycemic 被分成了三个不同的单词。
主题 – 手机成瘾
MarketMuse NLG 技术
这是 MarketMuse NLG 技术生成的输出的开始部分。
由 MarketMuse NLG 技术生成的文本。
这是它在优化中的样子。请注意,它已经有了健康的内容得分。每个突出显示的 意大利电话数据 主题都是在该主题的模型中找到的主题。
MarketMuse Optimize 的屏幕截图,使用 MarketMuse NLG 技术生成的文本。
格罗弗
我选择了《纽约时报》和曾经写过关于这个主题的作者 Nellie Bowels,希望生成的文本看起来令人印象深刻。
MarketMuse 优化 GROVER NLG 文本输出的分析。
虽然它确实实现了这个目标,但在全面性方面却相当空洞。我尝试了多代,最好的是 431 个字,内容分数为 7。
GPT-2
开始谈论“手机成瘾”,500字之后话题就变用程序的评论!
GPT-2 NLG 文本输出。
此时,文章的内容分数为 14,目标内容分数为 39。由于距离目标还很远,我让生成继续。在 1,048 个字时,字数增加了一倍,但内容分数略有增加,达到 18。在 1,474 个字时,内容分数仍然没有变化。这并不奇怪,因为生成的内容已经偏离主题太远了。
XLNet
XLNet 提供了与 GPT-2 类似的体验。大约 300 个单词后,它陷入循环并重复。三振出局!
XLNet NLG 输出文本。
主题 – 如何种植辣椒
无可否认,胰高血糖素是一个相当沉重的话题。经历了这样的事情之后,种植辣椒应该会变得轻而易举。让我们来一探究竟。
MarketMuse NLG 技术
尽管 MarketMuse NLG Technology 满足所有指标,但其写作风格(在本例中)还有待改进。奇怪的是,其较高的 Flesch 阅读难易度得分表明这篇文章很容易阅读。
MarketMuse NLG 技术文本输出。
格罗弗
这一代人模仿了 TheSpruce 一位著名作者的风格,他写了一篇类似的文章,在搜索中表现良好。文章略多于 600 个字,显然不能算作关于该主题的论文。其低内容分数证实了这一点。
GROVER NLG 文本输出。
GPT-2
再次,这种自然语言生成模型难以保持主题一致。生成大约 400 个单词后,文章就从谈论辣椒变成了谈论桃子!正是在这个时候,我停止了生成,因为它不太可能逆转进程。它的内容得分如此之低并不奇怪。
GPT-2 NLG 文本输出。
XLNet
关于 XLNet 为这个主题提供的文本生成,我几乎无话可说。它在生成一个句子后就卡住了!你自己看看吧。我给了它足够多的机会来纠正自己,之后我终止了生成。
XLNet NLG 输出文本。
主题 — 讲故事的力量
MarketMuse NLG 技术
如果有一个话题可以任意发展,那么就是这个话题了。但请记住,MarketMuse NLG 技术基于高度结构化的内容简介,而内容简介本身又基于对该主题的所有竞争性内容的分析。
MarketMuse NLG 技术输出文本。
为了在这个主题上获得良好的排名,您需要涵盖一些特定的主题。MarketMuse 决定了这些主题是什么。
格罗弗
GROVER 准备针对该主题的十大网站之一 health.org.uk 撰写文章。理由再次是,模仿这个享有盛誉的出版物将产生一篇可信的文章。
结果如何?事实并非如此。
仔细想想,这并不奇怪。指导这么少,你还能指望什么呢?
GROVER NLG 文本输出。
这篇故事只有 612 个字,很短,也算有趣。但这并不是一篇讲述故事力量的文章。
GPT-2
GPT-2 再次陷入重复,所以我结束了生成。文章的大部分内容都是重复的,导致所有指标的得分都很低。
GPT-2 NLG 输出文本。
XLNet
和 GPT-2 一样,我为 XLNet 提供了 health.org.uk 上关于同一主题的高级文章的第一段。粗体文本是语言模型生成的材料。由于它不断重复它创建的第一句话,所以我结束了生成。
XLNet NLG 输出文本。
主题 – 如何成为一名药物滥用社会工作者
MarketMuse NLG 技术
我认为这个主题足够简单,所有模型都能出色地生成合适的文本。MarketMuse NLG 技术的优势在于内容简介,可以提供结构、主题和要解决的问题。其他的呢?
MarketMuse NLG 技术输出文本。
格罗弗
虽然 GROVER 可以编造故事,但并不总是那么有信息量。诚然,它的内容得分为 16,远远超过了竞争对手 GPT-2 和 XLNet。然而,它与 MarketMuse NLG Technology 的 36 分相差甚远。它的 Grammarly 总体得分相对较低,为 65,这表明需要进行大量编辑才能发布。
GROVER NLG 输出文本。
GPT-2
该语言模型很难生成有关该主题的有意义的内容。前 300 个单词之后,文本对内容分数没有影响,最高得分为 7 分,而目标是 31 分。文本质量下降到输出不再连贯的程度,因此生成终止。
GPT-2 NLG 输出文本。
XLNet
与所有四种语言生成模型相比,XLNet 在该主题上的内容得分最低(5)。它的输出文本再次拥有最少的字数。不仅如此,它创建的文本很快退化为重复,生成再次终止。
XLNet NLG 输出文本。
概括
2019 年,自然语言生成模型(尤其是 GROVER 和 GPT-2)受到了广泛关注。人们担心它们可能被用于邪恶目的。事实是,与 MarketMuse NLG 技术不同,这些模型很难生成紧扣主题、内容全面的长篇内容。这使得内容营销人员很难以任何有成效的方式使用它们。
MarketMuse NLG 技术与这些模型在自然语言生成方法上存在根本区别。在 MarketMuse NLG 技术中,人类紧密融入工作流程,并设定文章的结构、要讨论的主题和要回答的问题。MarketMuse 协助确定这些项目应该是什么,但在生成内容之前,依赖于人类对这些因素的验证。我们认为,在当前情况下,人工智能最适合增强人类作家的能力。