最新消息:关注人工智能 AI赋能新媒体运营

阿里发布万亿参数Qwen3-Max-Thinking,国产推理模型新标杆,性能逼近GPT-5

科技资讯 admin 浏览

千问3-Max-Thinking 正式发布:阿里最强推理模型来了

阿里巴巴今天正式推出千问系列最新旗舰模型——Qwen3-Max-Thinking。这不是一次简单的升级,而是一次从“能回答”到“会思考”的跃迁。它不再只是被动地输出答案,而是像一个经验丰富的研究员那样,边想边查、边算边改,真正把复杂问题拆解、验证、再整合。

据内部测试数据,Qwen3-Max-Thinking 的参数规模已突破万亿级别,但真正让人眼前一亮的,不是数字本身,而是它在真实场景中的表现。在数学推导、科研文献理解、代码调试、多步骤决策等高难度任务中,它的准确率和稳定性明显优于前代模型,甚至在部分测试中接近或超越了当前全球主流的顶级模型。

你可能听过 GPT-4o、Claude 3.5 或 Gemini 1.5,它们都很强。但这一次,Qwen3-Max-Thinking 不是“追赶”,而是用一套全新的工作方式,和它们站在了同一条起跑线上。

它不只是“回答问题”,而是“解决问题”

过去的大模型,遇到复杂问题常常“卡壳”——要么胡编乱造,要么直接放弃。Qwen3-Max-Thinking 的核心突破,在于它能“主动思考”。

当你问它:“帮我分析一下特斯拉2024年Q4财报中毛利率下滑的原因,并用Python画出近五年趋势图”,它不会直接给你一个笼统的答案。它会:

  • 先调用内部知识库,提取财报关键数据;
  • 自动联网搜索近期行业报告,确认供应链成本变化;
  • 启动代码解释器,编写并运行绘图脚本;
  • 检查结果是否合理,修正异常值;
  • 最后,用通俗语言总结给你。

整个过程像一个资深分析师在办公桌前工作——有条理、有验证、有反思。这不是预设的流程,而是模型根据任务动态判断、自主选择工具的结果。阿里称之为“自适应工具调用”,我们更愿意叫它:“像人一样干活”。

“测试时扩展”:越想越准,越用越聪明

很多人以为模型越大,就越“聪明”。但参数多≠能力强。Qwen3-Max-Thinking 的另一个关键创新是“测试时扩展”(Test-Time Scaling)——简单说,就是它在你提问的时候,会主动给自己“多花点时间”。

比如你问一个复杂的数学证明题,它不会立刻回复。它会尝试多种解法路径,反复验证每一步逻辑,甚至模拟不同假设下的结果。这个过程可能比普通模型多花几秒,但答案的可靠性提升显著。在数学、物理、编程竞赛类题目中,它的正确率比上一代提升了近40%。

这不是“算得更快”,而是“想得更深”。就像一个医生面对疑难杂症,不会急于开药,而是先调阅病史、做多种检查、反复比对,才给出最终诊断。

现在就能用,开发者也能接入

从今天起,任何人都可以在 Qwen Chat 上免费体验 Qwen3-Max-Thinking。无论是写周报、做数据分析、写代码、查资料,还是帮孩子解奥数题,它都能帮你省下大量时间。

对开发者来说,API 已正式开放,模型名称为:qwen3-max-2026-01-23。阿里云官网已更新文档,支持一键调用,无需复杂配置。不少初创团队和企业用户已开始接入,用于客服系统、智能投研、自动化报告生成等场景。

它真的能替代人工吗?

我们不吹嘘“取代人类”,但可以说:它让普通人也能拥有一个“超级助理”。

一个市场分析师,以前要花两天整理数据、写报告,现在半小时就能拿到初稿;一个学生,遇到不会的微积分题,不用再翻书、查论坛,直接问它,还能看到推导过程;一个创业者,想评估一个新产品的市场潜力,它能帮你查竞品、分析用户评论、模拟增长曲线。

这不是科幻。它就在你眼前,免费、可用、真实。

image.png