图片来自OpenChatKit
法学硕士的金丝细工图片
科学文章:OPT:开放预训练 Transformer 语言模型
GitHub: facebookresearch/metaseq
演示:法学硕士的精美作品
Flan-T5-XXL 是经过微调的 T5 模型,已使用以指令形式呈现的 中东手机号码清单 大量数据集进行了训练。这种类型的微调显着提高了各类模型(例如 PaLM、T5 和 U-PaLM)的性能。此外,Flan-T5-XXL 模型针对跨多种语言的 1000 多个附加任务进行了改进。
图片1.png
聊天 LLM 流图像
科学文章:带有尺度指令的微调语言模型
GitHub:谷歌研究/t5x
9.白泽
百泽在多轮对话中表现出色,这得益于其有助于降低潜在风险的护栏。它通过高质量的多轮聊天语料库实现了这一目标,该语料库是利用 ChatGPT 开发的,以促进与自身的对话。
Baize源代码、模型和数据集是在非商业许可下发布的(用于研究目的)。
图片7.png图片来源:白泽7B
科学文章:Baize:一种对自动聊天数据进行高效参数调整的开源聊天模型
10.考拉
Koala 是一个聊天机器人,通过将 LLaMa 与从互联网提取的一组对话数据进行拟合来训练。 Koala 的表现比 Alpaca 更好,并且在很多情况下与 ChatGPT 类似。
Koala 提供训练代码、公共权重和对话微调,并由 100 人进行评估。
图片8.png
11.多莉
Dolly 是一个很棒的语言模型,由 Databricks 机器训练而成,旨在证明我们可以使用旧的开源语言模式,并赋予它遵循 ChatGPT 指令的神奇能力。使用高质量的训练数据在机器上训练模型需要 30 分钟。您甚至不需要大型模型即可实现高质量。该团队使用的模型有 60 亿个参数,而 GPT-3 的参数为 1750 亿个。
查看Dolly 2.0,这是一种可商业使用的指令跟踪语言模型。