语言模型在零训练样本和少量训练

ujjal22 · Post by **ujjal22** » Sun Jan 05, 2025 9:43 am

图片来自OpenChatKit

法学硕士的金丝细工图片

科学文章：OPT：开放预训练 Transformer 语言模型
GitHub: facebookresearch/metaseq
演示：法学硕士的精美作品

Flan-T5-XXL 是经过微调的 T5 模型，已使用以指令形式呈现的中东手机号码清单大量数据集进行了训练。这种类型的微调显着提高了各类模型（例如 PaLM、T5 和 U-PaLM）的性能。此外，Flan-T5-XXL 模型针对跨多种语言的 1000 多个附加任务进行了改进。

图片1.png

聊天 LLM 流图像

科学文章：带有尺度指令的微调语言模型
GitHub:谷歌研究/t5x

9.白泽
百泽在多轮对话中表现出色，这得益于其有助于降低潜在风险的护栏。它通过高质量的多轮聊天语料库实现了这一目标，该语料库是利用 ChatGPT 开发的，以促进与自身的对话。

Baize源代码、模型和数据集是在非商业许可下发布的（用于研究目的）。

图片7.png图片来源：白泽7B

科学文章：Baize：一种对自动聊天数据进行高效参数调整的开源聊天模型

10.考拉
Koala 是一个聊天机器人，通过将 LLaMa 与从互联网提取的一组对话数据进行拟合来训练。 Koala 的表现比 Alpaca 更好，并且在很多情况下与 ChatGPT 类似。

Koala 提供训练代码、公共权重和对话微调，并由 100 人进行评估。

图片8.png

11.多莉
Dolly 是一个很棒的语言模型，由 Databricks 机器训练而成，旨在证明我们可以使用旧的开源语言模式，并赋予它遵循 ChatGPT 指令的神奇能力。使用高质量的训练数据在机器上训练模型需要 30 分钟。您甚至不需要大型模型即可实现高质量。该团队使用的模型有 60 亿个参数，而 GPT-3 的参数为 1750 亿个。

查看Dolly 2.0，这是一种可商业使用的指令跟踪语言模型。