告别英语中心主义,F2LLM-v2 让多语言和代码理解真正平等
过去几年,主流的语义模型几乎都被英语主导——训练数据以英文为主,评测榜单也以英文任务为标杆。结果是:中文、泰语、斯瓦希里语、越南语,甚至北欧小语种,往往被边缘化。直到今天,蚂蚁集团 CodeFuse 团队联合上海交通大学,正式发布 F2LLM-v2 系列 Embedding 模型,用实打实的性能和全开源的诚意,打破了这一长期存在的不平等。
这不是又一个“性能提升10%”的宣传稿。F2LLM-v2 在 MTEB——全球最权威的 Embedding 评测榜单上,横扫 11 项第一,涵盖德语、法语、日语、韩语、俄语、阿拉伯语、泰语、印尼语、越南语、代码检索和医疗问答等多个真实场景。更惊人的是,它的轻量版(330M)在同等参数规模下,多次击败了业内知名大厂的闭源模型。这意味着,你不需要买下一台服务器,也能在手机上跑出比肩 GPT-4 级别的语义理解能力。

不只是多语言,是真正覆盖“没人关心的语言”
很多人以为“多语言”就是加几个欧洲语言。F2LLM-v2 的训练数据里,有超过 282 种自然语言,其中近一半是低资源语言——比如缅甸语、老挝语、斯洛文尼亚语、冰岛语、豪萨语。这些语言在主流模型里几乎找不到踪影,但它们背后是数千万真实用户的日常表达。
团队从维基百科、开源文档、公共论坛、本地化网站等渠道,筛选并清洗了超过 6000 万条高质量文本,剔除广告、机器生成内容和重复数据。不是“堆数据”,而是“挑数据”。结果是:模型对“怎么问天气”“如何申请签证”“本地医院挂号流程”这类真实问题的理解,远超同类产品。
在医疗问答任务中,它能准确区分“糖尿病的早期症状”在泰语和越南语中的不同表达;在代码检索中,它能识别出 Python 和 Go 中相似逻辑的不同写法——哪怕你用的是非标准注释或缩写变量名。
40+ 编程语言,不是噱头,是日常用得上的
如果你是个开发者,尤其是做 RAG、代码搜索、AI 助手的,F2LLM-v2 的代码理解能力可能直接改变你的工作流。
它支持 Python、Java、C++、Go、Rust、JavaScript、TypeScript、SQL、Shell、Lua、Ruby、Swift、Kotlin,甚至包括 Julia、Haskell、Prolog 等小众语言。不是“能识别关键字”,而是能理解函数结构、变量作用域、API 调用模式。比如,你用中文问:“怎么在 Go 里读取 JSON 并转成结构体?”它能准确匹配到标准库中的 `json.Unmarshal` 示例,而不是返回一堆无关的 Python 代码。
很多团队用它替代了昂贵的商业 API,比如在内部知识库系统中,用它做代码片段检索,准确率提升 37%,响应时间从 2 秒降到 300 毫秒。

从手机到服务器,一套模型全搞定
你不需要为了“效果”牺牲性能,也不必为了“快”放弃精度。F2LLM-v2 提供从 80M 到 14B 的完整模型家族,覆盖所有使用场景:
- 80M - 330M:能在安卓/iOS 应用里本地运行,无需联网。适合做离线搜索、隐私敏感的文档分类、移动端智能助手。
- 1.3B - 7B:部署在云服务器或边缘设备,适合企业级 RAG、客服系统、内部知识库。
- 14B:追求极致精度的科研或高并发场景,如法律文书比对、多语言专利检索。
最特别的是它的“动态维度”功能——你不需要重新训练或切换模型。同一个权重文件,你可以把向量维度从 8 维调到 1024 维。8 维时,内存占用不到 1MB,响应快如闪电;1024 维时,精度接近 14B 大模型。这在工业部署中是革命性的:你可以先用小模型上线,数据多了再逐步调高,不用重做整套系统。

全开源,不藏底牌
我们见过太多“开源”模型:权重放出来,训练代码不给,数据集模糊,论文写得像科幻小说。F2LLM-v2 不一样。
- 所有权重:80M 到 14B,全部在 Hugging Face 和 ModelScope 上开放下载,无任何使用限制。
- 完整训练代码:包括数据清洗流程、微调脚本、评估工具,GitHub 仓库已公开,你可以复现每一行结果。
- 技术报告:超过 80 页的详细文档,包含训练数据构成、评估方法、消融实验、错误分析,连失败的尝试都写进去了。
这不是营销,是给开发者真正的工具。已经有国内高校团队基于它构建了藏语问答系统,非洲的开发者用它做了斯瓦希里语的医疗咨询机器人,日本的开源项目用它优化了代码搜索功能。
真正的好工具,不该只属于大公司
F2LLM-v2 的意义,不在于它拿了多少第一。而在于它让一个越南的独立开发者、一个肯尼亚的教育科技团队、一个用中文写代码的退休工程师,都能平等地获得和 OpenAI、Google 一样的语义理解能力。
AI 不该是英语的专利,代码也不该只属于硅谷。听懂世界,从每一个被忽视的语言开始。F2LLM-v2,不是终点,而是一个开始。
项目地址:https://github.com/CodeFuse-ai/F2LLM-v2
模型下载:https://huggingface.co/CodeFuse