最新消息:关注人工智能 AI赋能新媒体运营

Mistral AI发表程序码生成模型Codestral Mamba及数学推论模型Mathstral

科技智能 admin 浏览 评论

法国AI新创Mistral AI周二(7/16)发表了两个新模型Codestral Mamba 7B与Mathstral 7B,前者为程序码生成模型,后者则是数学推论模型,皆採用Apache 2.0开源授权,并透过Hugging Face存取。

根据Mistral AI的说明,有别于Transformer模型强调自注意机制与支援複杂时空的运算能力,Codestral Mamba採用新型架构,支援线性时间推论,因此得以更有效地处理长序列,理论上可支援无限长的序列,可与用户进行广泛互动且快速获得回应,对于产生程序码特别有效率,Mistral AI并以高级的程序码及推论能力来训练该模型,使其可比美最先进的Transformer模型。

Mistral AI比较了同属7B规格的CodeGemma-1.1、CodeLlama、DeepSeek v1.5,发现Codestral Mamba在多数的基準测试上皆胜出,对于更大的Codestral 22B及CodeLlama 34B等模型,Codestral Mamba 7B也与其不相上下。

图片来源/Mistral AI

此外,Mistral AI也已测试多达256K Token的Codestral Mamba脉络检索能力,预期它可成为出色的本地端程序码助手。

至于Mathstral 7B则是个奠基在Mistral 7B的数学推论模型,专攻科学、技术、工程及数学(STEM)相关领域的主题,将它与DeepSeek Math 7B、Llama 3 8B、GLM4 9B、QWen2 7B、Gemma2 9B进行比较,Mathstral 7B不管是在MATH、GSM8K、Odyssey Math、GRE Math、AMC 2023或AIME 2024等基準测试上都有出色的表现,而且若能拥有更多的运算资源与时间,就会有更好的推论表现。

图片来源/Mistral AI

Mathstral 7B是个预训练模型,已可直接用来推论,亦可根据需求来微调它。

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论