语言模型在零训练样本和少量训练

Buy Database Forum Highlights Big Data’s Global Impact
Post Reply
ujjal22
Posts: 278
Joined: Wed Dec 18, 2024 3:35 am

语言模型在零训练样本和少量训练

Post by ujjal22 »

图片来自OpenChatKit


法学硕士的金丝细工图片

科学文章:OPT:开放预训练 Transformer 语言模型
GitHub: facebookresearch/metaseq
演示:法学硕士的精美作品

Flan-T5-XXL 是经过微调的 T5 模型,已使用以指令形式呈现的 中东手机号码清单 大量数据集进行了训练。这种类型的微调显着提高了各类模型(例如 PaLM、T5 和 U-PaLM)的性能。此外,Flan-T5-XXL 模型针对跨多种语言的 1000 多个附加任务进行了改进。

图片1.png

聊天 LLM 流图像

科学文章:带有尺度指令的微调语言模型
GitHub:谷歌研究/t5x

9.白泽
百泽在多轮对话中表现出色,这得益于其有助于降低潜在风险的护栏。它通过高质量的多轮聊天语料库实现了这一目标,该语料库是利用 ChatGPT 开发的,以促进与自身的对话。

Baize源代码、模型和数据集是在非商业许可下发布的(用于研究目的)。

图片7.png图片来源:白泽7B

科学文章:Baize:一种对自动聊天数据进行高效参数调整的开源聊天模型

10.考拉
Koala 是一个聊天机器人,通过将 LLaMa 与从互联网提取的一组对话数据进行拟合来训练。 Koala 的表现比 Alpaca 更好,并且在很多情况下与 ChatGPT 类似。

Koala 提供训练代码、公共权重和对话微调,并由 100 人进行评估。

图片8.png


11.多莉
Dolly 是一个很棒的语言模型,由 Databricks 机器训练而成,旨在证明我们可以使用旧的开源语言模式,并赋予它遵循 ChatGPT 指令的神奇能力。使用高质量的训练数据在机器上训练模型需要 30 分钟。您甚至不需要大型模型即可实现高质量。该团队使用的模型有 60 亿个参数,而 GPT-3 的参数为 1750 亿个。

查看Dolly 2.0,这是一种可商业使用的指令跟踪语言模型。
Post Reply