最新消息:关注人工智能 AI赋能新媒体运营

Meta公布轻巧版多语言模型Llama 3.3

科技智能 admin 浏览 评论
图片来源:

Hugging Face

Meta上周公布700亿参数的Llama 3.3,强调轻巧、更具成本效益,但保有Llama 3.1 4050亿参数大语言模型的高效能。

Llama 3.3是多语言大语言模型(multilinguistic large language model),分成预训练及指令调校模型,前者是以15兆以上字词训练,而微调用的资料包含公开指令资料集及超过2,500万笔合成範例。它可接受文字输入提示生成文字或程序码,脉络长度为128k。Llama 3.3已在Llama 3.3社群授权协议(community license agreement)下开源于GitHub及Hugging Face上。

在模型技术上,Llama 3.3使用最佳化Transformer架构的自我廻归(auto-regressive)语言模型。其调校版本使用监督式微调(supervised fine-tuning,SFT),并以人类回馈强化学习(reinforcement learning with human feedback,RLHF)以符合人类喜好,而提升其用处和安全性。所有模型都使用群组查询注意力(Grouped-Query Attention,GQA)提升推论的扩充性。

Meta说明,Llama 3.3为多语言对话应用场景优化,在许多常见产业标竿的效能表现,超越许多现有开源或封闭式对话模型。根据Meta公布的资料,Llama 3.3在多任务语言理解、财务、数学、多任务学习推理等标竿测试中,效能超越Llama 3.1 70B、Amazon Nova、Gemini Pro 1.5、GPT-4o,甚至Llama 3.1 405B。

在适用情境上,Llama 3.3适用于多语言的商用及研究情境。Llama 3.3指令调校的纯文字语言模型适合作为助理聊天机器人,而预训练模型版本则可用于多种自然语言生成任务。其输出还可用于改良其他模型,包括生成合成资料以及蒸馏,其使用的Llama 3.3社群授权也允许这么做。但Meta也说明,违反相关法律或法规、或违反「可接受用途政策」、Llama 3.3社群授权的使用都会被禁止。

目前Llama 3.3支援8种语言,包括英文、德语、西语、葡语、义语、法语、泰文和北印度语(Hindi)。但开发人员还是可以在符合授权协议及使用政策之下微调,以用于其他语言。

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论