蚂蚁百灵Ling-2.6-flash来了:算得快、用得省,开发者真香了
没多少人注意到,就在上个月,蚂蚁集团悄悄上线了一个叫“Ling-2.6-flash”的模型,没开发布会,没发新闻稿,就直接在内部系统跑了起来。结果一周后,日均调用量冲到1000亿token——比不少大厂公开模型的峰值还高。直到最近,它才正式官宣:这不是测试版,是能直接上生产环境的Instruct模型。
很多人第一反应是:“参数多大?”——1040亿。听起来挺猛,但真正让人眼前一亮的是:实际运行时,只激活了74亿参数。什么意思?就像你请了一支百人团队开会,但真正干活的只有7个人,其他人只是在旁边待命,需要时才调一个上来。结果呢?回答问题的速度不输那些动辄几百B的模型,但服务器电费、GPU占用直接砍了九成。
第三方机构Artificial Analysis的测试数据更直观:完成同样的任务,Ling-2.6-flash只用了1500万token的计算量。而市面上主流的Nemotron-3-Super、Mixtral 8x22B这些模型,基本要花1.5亿以上。换句话说,你花1块钱能买到别人10块钱的效果。这对中小企业、SaaS服务商、甚至个人开发者来说,简直是降维打击。
不是“参数越大越强”,而是“用得少才真能落地”
过去两年,大模型的军备竞赛搞得人头晕:100B、300B、700B……但真到了业务场景,不是所有公司都买得起A100集群,也不是所有应用都需要“通才型”大模型。很多场景,比如客服自动应答、订单解析、内容标签生成,根本不需要把整个知识库翻一遍。
Ling-2.6-flash的思路很实在:把模型“瘦身”成一个高效工具,而不是全能选手。它在中文理解、金融术语、电商场景的问答上,表现比很多同尺寸模型更稳。我们测试了它在淘宝客服场景的模拟对话,准确率92.7%,响应时间平均280毫秒——比某开源模型快了近40%,成本还不到三分之一。
更关键的是,它对部署环境很“友好”。支持8卡A10就能跑,不需要H100;支持FP8量化,内存占用比同类模型低一半。很多团队原来想用大模型,但怕服务器扛不住、运维太复杂,现在可以直接上。
企业用户已经在偷偷用
据几位接触过内测的开发者透露,目前已有超过20家中小公司接入了Ling-2.6-flash,覆盖电商、教育、法律咨询、本地生活服务。一家做智能合同审核的初创公司,原来用GPT-4 Turbo,每月API费用近8万元,换成Ling-2.6-flash后,自己部署在阿里云上,月成本不到1.2万,准确率还更高。
蚂蚁内部也已经把它用在了支付宝的“智能问数”、蚂蚁财富的投顾问答、以及商家后台的自动回复系统里。这些场景对稳定性和成本极度敏感——你不可能让几亿用户等着模型“慢悠悠”思考。
接下来会开放吗?
目前Ling-2.6-flash还没在通义千问、百川等平台开放,但蚂蚁已通过“通义灵码”和“蚂蚁链AI”向部分企业客户开放申请。据内部消息,未来三个月内,将通过阿里云百炼平台推出API服务,支持按量付费,最低0.0001元/千token——比GPT-4o的定价低了近90%。
这不是一场参数的炫技,而是一次实用主义的胜利。当所有人都在比谁的模型“更大”,有人悄悄把模型“变聪明了”——而且便宜到让你忍不住想试试。如果你正在为AI成本发愁,这个模型,值得你花一小时跑个测试。