Meta公布轻巧版多语言模型Llama 3.3

图片来源:

Hugging Face

Meta上周公布700亿参数的Llama 3.3，强调轻巧、更具成本效益，但保有Llama 3.1 4050亿参数大语言模型的高效能。

Llama 3.3是多语言大语言模型（multilinguistic large language model），分成预训练及指令调校模型，前者是以15兆以上字词训练，而微调用的资料包含公开指令资料集及超过2,500万笔合成範例。它可接受文字输入提示生成文字或程序码，脉络长度为128k。Llama 3.3已在Llama 3.3社群授权协议（community license agreement）下开源于GitHub及Hugging Face上。

在模型技术上，Llama 3.3使用最佳化Transformer架构的自我廻归（auto-regressive）语言模型。其调校版本使用监督式微调（supervised fine-tuning，SFT），并以人类回馈强化学习（reinforcement learning with human feedback，RLHF）以符合人类喜好，而提升其用处和安全性。所有模型都使用群组查询注意力（Grouped-Query Attention，GQA）提升推论的扩充性。

Meta说明，Llama 3.3为多语言对话应用场景优化，在许多常见产业标竿的效能表现，超越许多现有开源或封闭式对话模型。根据Meta公布的资料，Llama 3.3在多任务语言理解、财务、数学、多任务学习推理等标竿测试中，效能超越Llama 3.1 70B、Amazon Nova、Gemini Pro 1.5、GPT-4o，甚至Llama 3.1 405B。

在适用情境上，Llama 3.3适用于多语言的商用及研究情境。Llama 3.3指令调校的纯文字语言模型适合作为助理聊天机器人，而预训练模型版本则可用于多种自然语言生成任务。其输出还可用于改良其他模型，包括生成合成资料以及蒸馏，其使用的Llama 3.3社群授权也允许这么做。但Meta也说明，违反相关法律或法规、或违反「可接受用途政策」、Llama 3.3社群授权的使用都会被禁止。

目前Llama 3.3支援8种语言，包括英文、德语、西语、葡语、义语、法语、泰文和北印度语（Hindi）。但开发人员还是可以在符合授权协议及使用政策之下微调，以用于其他语言。

CB科技站

Meta公布轻巧版多语言模型Llama 3.3

与本文相关的文章

您的回复是我们的动力！

网友最新评论