最新消息:关注人工智能 AI赋能新媒体运营

Meta开源Llama 3.1 405B,强调开源才是AI的未来

科技智能 admin 浏览 评论
图片来源:

Meta

Meta周二(7/23)开源了Llama 3.1 405B,它具备4,050亿个参数,脉络长度达12.8万个Token,支援8种语言,这是Meta迄今所开发的最大模型,亦号称是全球第一个达顶尖水準的开源模型,也是全球最大也最有能力的公开基础模型。Meta创办人暨执行长祖克柏(Mark Zuckerberg)还特别撰文强调开源AI的重要性,认为开源才是AI的未来。

有别于在Llama 3时,Meta仅释出了Llama 3 8B、Llama 3 8B Instruct、Llama 3 70B与Llama 3 70B Instruct,进展到Llama 3.1时,Meta释出了Llama 3.1 8B、Llama 3.1 8B Instruct、Llama 3.1 70B与Llama 3.1 70B Instruct,以及拥有4,050亿个参数的两个大模型Llama 3.1 405B与Llama 3.1 405B Instruct。此外,相较于Llama 3最初只支援8,000个Token的脉络长度,Llama 3.1一下就支援12.8万个Token。目前开发者已可透过llama.meta.com及Hugging Face下载Llama 3.1的各种模型。

身为Meta迄今开发的最大模型,Llama 3.1 405B是在逾15兆个Token上进行训练,为了要在合理的时间内获得结果,Meta优化了整个训练堆栈,使用了超过1.6万个H100 GPU。

既然标榜为具备顶尖实力的开源模型,Meta用来比较Llama 3.1 405B的对象就是现在市场上最顶级的GPT-4、GPT-4o与Claude 3.5 Sonnet等封闭模型,以及Nvidia于日前开源的Nemotron-4 340B,而且使用超过150个涵盖不同语言的基準资料集进行测试。

图片来源/Meta

结果显示Llama 3.1 405B在通用的IFEval、数学上的GSM8K、推论的ARC Challenge、工具使用的Nexus、长脉络的ZeroSCROLLS/QuALITY及InfiniteBench/En.MC及多语言的Multilingual MGSM基準测试上,凌驾上述所有模型。

Meta也比较了Llama 3.1 8B、Gemma 2 9B IT与Mistral 7B Instruct,以及Llama 3.1 70B、Mixtral 8x22B Instruct与GPT 3.5 Tubo,发现不管是Llama 3.1 8B及Llama 3.1 70B,在许多基準测试上都超越竞争模型。

图片来源/Meta

而在人类专家的评估中,Llama 3.1 405B与GPT-4-0125、Claude 3.5 Sonnet的表现不相上下,但明显不及GPT-4o。

图片来源/Meta

祖克柏:开源才是AI的未来

祖克柏认为,AI应该以Unix及Linux的发展作为借镜。Unix作业系统的封闭政策让基于Unix的开源Linux兴起,儘管Unix现今仍在某些专业领域或高性能环境中保持重要地位,但开源的Linux却开枝散叶,带来多元的发行版本,现在不仅已成为全球服务器的主作业系统,亦与时俱进地支援云端运算与虚拟化技术,并成为嵌入式系统及物联网装置的首选平台。

祖克柏相信AI也会以类似的方式发展。指出虽然目前有几家业者开发了领先的封闭模型,但开源模型正在迅速缩小差距。去年的Llama 2仅能与尖端模型的旧版相提并论,今年的Llama 3便能与最新的尖端模型竞争,自明年开始,未来的Llama将成为业者最先进的模型,而在实现此一目标之前,Llama已经在开放性、变更能力及成本效益上领先群伦。

相较于封闭性模型,Llama 3.1家族除了具备更好的成本与性能之外,Llama 3.1 405B模型的开放性,也让它成为微调及蒸馏出小模型的最好选择。

Meta的终极目标是让Llama如同Linux一样成为业界标準,因此已与多家业者合作以发展更完善的生态体系,包括Amazon、Databricks、Nvidia与Groq。Databricks已支援开发人员微调及蒸馏自己的模型,Groq则替所有新模型提供低延迟与低成本的推论服务,而各种云端服务已準备要协助企业採用Llama并使用自家资料训练自定义模型。

开源模型的好处之一是让企业得以根据需求、利用自家敏感资料来建置模型,而不受封闭模型供应商的箝制,其次则是在自家基础设施上以Llama 3.1 405B进行推论,成本只有使用GPT-4o等封闭模型的50%。

祖克柏强调,出售AI模型的存取权并非Meta的商业模式,因此,将Llama开源不会削弱Meta的营收、可持续性或投资研究的能力,他也相信开源将让AI模型变得更安全,在应对中国威胁时,相较于封闭所带来的限制,最好的策略是建立一个强大的开放生态体系,并让领先业者与政府及盟友密切合作,以确保可利用最新的进步,实现长期且可持续的先发优势。

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论