最新消息:关注人工智能 AI赋能新媒体运营

蚂蚁数科发布百灵企业版大模型:高效轻量,杜绝Token浪费

科技资讯 admin 浏览

从“会聊天”到“能干活”:智能体正在重塑企业AI落地方式

过去几年,AI给人的印象大多是聊天机器人、文案助手、智能客服——能说会道,但干不了实事。而如今,以OpenClaw为代表的自主执行智能体突然火了。它们不再只是回答问题,而是能自动调用系统、查数据、填表格、下单、审批,甚至跨系统协同完成一整套业务流程。企业开始发现:AI不再只是“加分项”,而是能直接省人、省钱、提效的“生产力工具”。

但现实很快给了大家一盆冷水。很多公司试用后发现,这些智能体虽然“能动”,但太“费钱”。一个简单的查询任务,它可能反复调用工具、反复检索、反复重试,消耗的计算资源是传统脚本或集成式系统的几十倍。有金融机构反馈,一个高频的客户身份核验任务,用OpenClaw跑一天,算力成本比原来高了80倍。这不是智能化,这是“烧钱式试错”。

真正的竞争,不是参数大小,而是“每一分钱花得值不值”

3月26日,中关村论坛上,蚂蚁数科大模型技术创新部总经理章鹏的一句话,点中了行业痛点:“大模型产业的下半场,拼的不是谁参数更大,而是谁的Token更省、效率更高。”

这话听着简单,但背后是无数企业的血泪经验。金融、政务、物流、制造这些行业,每天要处理成千上万的小任务:客户问“我的贷款进度到哪了?”“这张发票能不能报销?”“这个订单今天能发吗?”——这些事不需要GPT-4那样的“大聪明”,只需要一个快、准、稳的“小能手”。

用大模型处理这些高频小任务,就像拿一台F1赛车去送外卖——动力是够了,但油耗高、停车难、还不一定能进小区。真正需要的,是那种能跑得快、省油、耐造、还能24小时轮班的电动车。

蚂蚁推出“金融专用小脑”:快一倍,成本砍一半

就在论坛现场,蚂蚁数科发布了专为金融场景打造的轻量级模型——Ling-DT-Fin-Mini-2.5。这不是又一个“通用大模型”的翻版,而是为“高频、低时延、高并发”任务量身定制的“金融专用处理器”。

它基于混合线性注意力架构,专为快速识别意图、提取关键字段、匹配规则做优化。实测数据显示:在处理相同金融任务时,它的推理速度比主流通用模型快100%,硬件成本直接降低60%以上。这意味着,一家银行如果用它替代部分大模型任务,每月算力开支能省下上百万元。

更重要的是,它不是“玩具”。它已经接入蚂蚁内部的信贷审批、反欺诈、客户服务等真实系统,每天处理数百万次请求,稳定运行超过半年。不是实验室里的Demo,是正在干活的“员工”。

行业风向变了:大模型管“大事”,小模型干“杂活”

这不是蚂蚁一家的独创。最近,OpenAI悄悄推出了GPT-5.4 mini和GPT-nano,明确标注为“低延迟执行层模型”;Google也在内部测试轻量版Gemini Nano,专用于移动端和自动化任务;国内的百度、讯飞、MiniMax也都陆续发布了自己的“小模型+执行框架”组合方案。

行业共识正在形成:未来的AI系统,不再是“一个大模型包打天下”,而是“大模型+小模型”的分工体系。

  • 大模型负责:复杂决策、深度分析、跨领域推理(比如:评估一笔跨境贷款的信用风险)
  • 小模型负责:高频重复、低延迟操作(比如:一分钟内处理500个客户的还款提醒)

这种“分工协作”模式,不仅省钱,还更可靠。小模型响应快、出错少,大模型不被琐事拖累,系统整体效率反而更高。

企业落地AI,别再迷信“大就是好”

很多企业还在纠结:“要不要上大模型?”其实问题不该这么问。真正该问的是:

  • 我每天有多少任务是重复、简单、有明确规则的?
  • 这些任务现在靠人工还是脚本?成本多少?
  • 如果换成AI,我需要它多快响应?能承受多少并发?
  • 算力预算有多少?能不能承受每天几万元的开销?

答案往往很清晰:80%的日常任务,根本不需要“超级大脑”。你不需要一个能写诗的AI来填报销单,你需要的是一个不会出错、永不疲倦、成本低廉的“数字员工”。

蚂蚁数科表示,接下来会推出“百灵企业版Ling DT”系列,覆盖更多行业场景——物流、制造、零售、政务。不是为了炫技,而是为了让每个企业都能用得起、用得稳、用得久。

AI的下半场,不是比谁的模型参数多,而是比谁的系统更聪明地省下每一分算力。真正能活下来的,不是最“智能”的,而是最“务实”的。

image.png

图说:蚂蚁数科大模型技术创新部总经理章鹏在中关村论坛演讲