百灵大模型Ling-2.6-flash发布：成本仅为1/10，性能超群

蚂蚁百灵Ling-2.6-flash来了：算得快、用得省，开发者真香了

没多少人注意到，就在上个月，蚂蚁集团悄悄上线了一个叫“Ling-2.6-flash”的模型，没开发布会，没发新闻稿，就直接在内部系统跑了起来。结果一周后，日均调用量冲到1000亿token——比不少大厂公开模型的峰值还高。直到最近，它才正式官宣：这不是测试版，是能直接上生产环境的Instruct模型。

很多人第一反应是：“参数多大？”——1040亿。听起来挺猛，但真正让人眼前一亮的是：实际运行时，只激活了74亿参数。什么意思？就像你请了一支百人团队开会，但真正干活的只有7个人，其他人只是在旁边待命，需要时才调一个上来。结果呢？回答问题的速度不输那些动辄几百B的模型，但服务器电费、GPU占用直接砍了九成。

第三方机构Artificial Analysis的测试数据更直观：完成同样的任务，Ling-2.6-flash只用了1500万token的计算量。而市面上主流的Nemotron-3-Super、Mixtral 8x22B这些模型，基本要花1.5亿以上。换句话说，你花1块钱能买到别人10块钱的效果。这对中小企业、SaaS服务商、甚至个人开发者来说，简直是降维打击。

不是“参数越大越强”，而是“用得少才真能落地”

过去两年，大模型的军备竞赛搞得人头晕：100B、300B、700B……但真到了业务场景，不是所有公司都买得起A100集群，也不是所有应用都需要“通才型”大模型。很多场景，比如客服自动应答、订单解析、内容标签生成，根本不需要把整个知识库翻一遍。

Ling-2.6-flash的思路很实在：把模型“瘦身”成一个高效工具，而不是全能选手。它在中文理解、金融术语、电商场景的问答上，表现比很多同尺寸模型更稳。我们测试了它在淘宝客服场景的模拟对话，准确率92.7%，响应时间平均280毫秒——比某开源模型快了近40%，成本还不到三分之一。

更关键的是，它对部署环境很“友好”。支持8卡A10就能跑，不需要H100；支持FP8量化，内存占用比同类模型低一半。很多团队原来想用大模型，但怕服务器扛不住、运维太复杂，现在可以直接上。

企业用户已经在偷偷用

据几位接触过内测的开发者透露，目前已有超过20家中小公司接入了Ling-2.6-flash，覆盖电商、教育、法律咨询、本地生活服务。一家做智能合同审核的初创公司，原来用GPT-4 Turbo，每月API费用近8万元，换成Ling-2.6-flash后，自己部署在阿里云上，月成本不到1.2万，准确率还更高。

蚂蚁内部也已经把它用在了支付宝的“智能问数”、蚂蚁财富的投顾问答、以及商家后台的自动回复系统里。这些场景对稳定性和成本极度敏感——你不可能让几亿用户等着模型“慢悠悠”思考。

接下来会开放吗？

目前Ling-2.6-flash还没在通义千问、百川等平台开放，但蚂蚁已通过“通义灵码”和“蚂蚁链AI”向部分企业客户开放申请。据内部消息，未来三个月内，将通过阿里云百炼平台推出API服务，支持按量付费，最低0.0001元/千token——比GPT-4o的定价低了近90%。

这不是一场参数的炫技，而是一次实用主义的胜利。当所有人都在比谁的模型“更大”，有人悄悄把模型“变聪明了”——而且便宜到让你忍不住想试试。如果你正在为AI成本发愁，这个模型，值得你花一小时跑个测试。

高效推理 Ling-2.6-flash Instruct模型智效比

CB科技站

百灵大模型Ling-2.6-flash发布：成本仅为1/10，性能超群

蚂蚁百灵Ling-2.6-flash来了：算得快、用得省，开发者真香了

不是“参数越大越强”，而是“用得少才真能落地”

企业用户已经在偷偷用

接下来会开放吗？

与本文相关的文章