Mistral AI释出开源模型Mixtral 8x22B

图片来源:

Hugging Face

去年4月才于法国成立的AI业者Mistral AI周三（4/10）释出了新的开源模型Mixtral 8x22B，它採用稀疏混合专家（Sparse Mixture of Experts，SMoE）架构，支援1,760亿个参数，以及6.5万个Token的脉络长度，已藉由Mistral AI的官方X帐号、Together API及Hugging Face发布，成为目前最大的开源模型之一。同一天，就有开发者透过Hugging Face公布了Mixtral 8x22B的基準测试结果。

迄今Mistral AI已释出3款开源模型，包括去年9月发表的Mistral 7B（Mistral-tiny），去年12月发表的Mixtral 8x7B（Mistral-small），以及本周推出的Mixtral 8x22B，它们皆採用Apache 2.0授权，允许开发者免费下载，并在自己的设备或伺服器上执行。

在Mixtral 8x22B的基準测试中，其MMLU（大规模多工语言理解）成绩为77.3，胜过前一代Mixtral 8x7B的71.88，也凌驾GPT-3.5的70、Claude 3 Haiku（Claude 3低阶版）的75.2、Gemini 1.0 Pro的71.8，但仍不及GPT-4的86.4，或是Claude 3 Sonet/Opus，也不及Gemini 1.0 Ultra与Gemini 1.5 Pro。

而在基础常识推论（HellaSwag）测试中，Mixtral 8x22B得分为88.9，仅不及GPT-4、Claude 3 Sonet/Opus与Gemini 1.5 Pro；但它在GSM8K数学测试中的得分为76.5，明显不及GPT-4、Claude 3的各种模型，以及Gemini的各种模型。

由于Mixtral 8x22B是开源的，开发者可以重新训练或改善它，以让它能够处理更多的专门任务。

儘管成立才一年，但Mistral AI在去年12月完成4.15亿美元的增资活动时，其公司估值已达到20亿美元。

CB科技站

Mistral AI释出开源模型Mixtral 8x22B

与本文相关的文章