蚂蚁集团发布F2LLM-v2：全尺寸多语种嵌入模型横扫11项榜单冠军

告别英语中心主义，F2LLM-v2 让多语言和代码理解真正平等

过去几年，主流的语义模型几乎都被英语主导——训练数据以英文为主，评测榜单也以英文任务为标杆。结果是：中文、泰语、斯瓦希里语、越南语，甚至北欧小语种，往往被边缘化。直到今天，蚂蚁集团 CodeFuse 团队联合上海交通大学，正式发布 F2LLM-v2 系列 Embedding 模型，用实打实的性能和全开源的诚意，打破了这一长期存在的不平等。

这不是又一个“性能提升10%”的宣传稿。F2LLM-v2 在 MTEB——全球最权威的 Embedding 评测榜单上，横扫 11 项第一，涵盖德语、法语、日语、韩语、俄语、阿拉伯语、泰语、印尼语、越南语、代码检索和医疗问答等多个真实场景。更惊人的是，它的轻量版（330M）在同等参数规模下，多次击败了业内知名大厂的闭源模型。这意味着，你不需要买下一台服务器，也能在手机上跑出比肩 GPT-4 级别的语义理解能力。

不只是多语言，是真正覆盖“没人关心的语言”

很多人以为“多语言”就是加几个欧洲语言。F2LLM-v2 的训练数据里，有超过 282 种自然语言，其中近一半是低资源语言——比如缅甸语、老挝语、斯洛文尼亚语、冰岛语、豪萨语。这些语言在主流模型里几乎找不到踪影，但它们背后是数千万真实用户的日常表达。

团队从维基百科、开源文档、公共论坛、本地化网站等渠道，筛选并清洗了超过 6000 万条高质量文本，剔除广告、机器生成内容和重复数据。不是“堆数据”，而是“挑数据”。结果是：模型对“怎么问天气”“如何申请签证”“本地医院挂号流程”这类真实问题的理解，远超同类产品。

在医疗问答任务中，它能准确区分“糖尿病的早期症状”在泰语和越南语中的不同表达；在代码检索中，它能识别出 Python 和 Go 中相似逻辑的不同写法——哪怕你用的是非标准注释或缩写变量名。

40+ 编程语言，不是噱头，是日常用得上的

如果你是个开发者，尤其是做 RAG、代码搜索、AI 助手的，F2LLM-v2 的代码理解能力可能直接改变你的工作流。

它支持 Python、Java、C++、Go、Rust、JavaScript、TypeScript、SQL、Shell、Lua、Ruby、Swift、Kotlin，甚至包括 Julia、Haskell、Prolog 等小众语言。不是“能识别关键字”，而是能理解函数结构、变量作用域、API 调用模式。比如，你用中文问：“怎么在 Go 里读取 JSON 并转成结构体？”它能准确匹配到标准库中的 `json.Unmarshal` 示例，而不是返回一堆无关的 Python 代码。

很多团队用它替代了昂贵的商业 API，比如在内部知识库系统中，用它做代码片段检索，准确率提升 37%，响应时间从 2 秒降到 300 毫秒。

从手机到服务器，一套模型全搞定

你不需要为了“效果”牺牲性能，也不必为了“快”放弃精度。F2LLM-v2 提供从 80M 到 14B 的完整模型家族，覆盖所有使用场景：

80M - 330M：能在安卓/iOS 应用里本地运行，无需联网。适合做离线搜索、隐私敏感的文档分类、移动端智能助手。
1.3B - 7B：部署在云服务器或边缘设备，适合企业级 RAG、客服系统、内部知识库。
14B：追求极致精度的科研或高并发场景，如法律文书比对、多语言专利检索。

最特别的是它的“动态维度”功能——你不需要重新训练或切换模型。同一个权重文件，你可以把向量维度从 8 维调到 1024 维。8 维时，内存占用不到 1MB，响应快如闪电；1024 维时，精度接近 14B 大模型。这在工业部署中是革命性的：你可以先用小模型上线，数据多了再逐步调高，不用重做整套系统。

全开源，不藏底牌

我们见过太多“开源”模型：权重放出来，训练代码不给，数据集模糊，论文写得像科幻小说。F2LLM-v2 不一样。

所有权重：80M 到 14B，全部在 Hugging Face 和 ModelScope 上开放下载，无任何使用限制。
完整训练代码：包括数据清洗流程、微调脚本、评估工具，GitHub 仓库已公开，你可以复现每一行结果。
技术报告：超过 80 页的详细文档，包含训练数据构成、评估方法、消融实验、错误分析，连失败的尝试都写进去了。

这不是营销，是给开发者真正的工具。已经有国内高校团队基于它构建了藏语问答系统，非洲的开发者用它做了斯瓦希里语的医疗咨询机器人，日本的开源项目用它优化了代码搜索功能。

真正的好工具，不该只属于大公司

F2LLM-v2 的意义，不在于它拿了多少第一。而在于它让一个越南的独立开发者、一个肯尼亚的教育科技团队、一个用中文写代码的退休工程师，都能平等地获得和 OpenAI、Google 一样的语义理解能力。

AI 不该是英语的专利，代码也不该只属于硅谷。听懂世界，从每一个被忽视的语言开始。F2LLM-v2，不是终点，而是一个开始。

项目地址：https://github.com/CodeFuse-ai/F2LLM-v2
模型下载：https://huggingface.co/CodeFuse

多语言支持 F2LLM-v2 Embedding模型开源语义表征

CB科技站