通义千问Qwen3.7系列预览版上线,性能直逼全球顶尖水平
阿里云旗下的通义千问大模型迎来一次重要升级,全新推出的Qwen3.7-Max-Preview和Qwen3.7-Plus-Preview已正式登陆大模型竞技场Arena AI和官方Qwen Chat平台。这两款模型虽仍处于预览阶段,但其表现已引发业内广泛关注。据内部消息,它们将在即将召开的2026阿里云峰会上正式对外发布,成为下一代大模型的主力产品。
目前,这两款模型仅开放“思考模式”,意味着它们暂时不支持网页搜索、代码执行器等外部工具,而是专注于处理复杂推理、数学推导和深度逻辑任务。这种“减法式”设计,反而让模型在纯思维能力上更加专注和强大——就像一位不看参考资料、只靠脑力解题的顶尖考生。

全球榜单冲进前十,中文场景表现尤为突出
在权威基准测试中,Qwen3.7-Max-Preview的表现令人眼前一亮。在综合文本能力榜单中,它一举冲进全球第13名,成为目前中国自研模型中排名最高的产品之一。更值得关注的是,在数学推理、编程能力、软件工程和专家级任务等细分领域,它全部跻身全球前十,其中数学能力位列全球第7,超越了多个国际知名开源模型。
在中文场景下,它的优势更加明显。面对中文复杂逻辑题、古文理解、政策解读、多轮对话推理等任务,Qwen3.7-Max的准确率和稳定性远超同类英文主导模型。不少开发者反馈,它在处理中国高考压轴题、公务员考试申论题、金融分析报告摘要等实际需求时,表现甚至优于GPT-4o。
视觉能力同步突破,通义千问迈入多模态第一梯队
与此同时,Qwen3.7-Plus-Preview作为视觉增强版,也在多模态测试中交出亮眼答卷。在图像理解、图表分析、图文问答等任务中,它稳居全球第16名,让通义千问在视觉模型实验室排名中跃升至全球第五,仅次于OpenAI、Google、Anthropic和Meta。
在“专家竞技场”这一专门测试复杂指令理解与多步推理的榜单中,Qwen3.7-Max同样拿下全球第9,成为少数能稳定完成“根据一张医疗影像报告,结合病史和最新指南,生成诊断建议”这类高难度任务的模型之一。这意味着,它不再只是“会说话的机器人”,而是开始具备“能思考的助手”雏形。
面向真实场景,不是炫技,而是实用
与一些模型追求“参数越大越好”不同,通义千问这次更注重“用得上”。没有堆砌花哨功能,而是把力气用在刀刃上:让模型在没有网络、没有工具辅助的情况下,依然能独立完成高难度推理。这种思路,更贴近企业用户和专业人员的真实需求——不是要一个能上网的聊天机器人,而是一个能独立思考、快速出结果的智能搭档。
目前,Qwen3.7系列仅对部分开发者和企业用户开放预览,普通用户还无法直接使用。但已有不少AI工程师和高校研究团队在内部测试中反馈:“它写代码的逻辑比以前清晰多了”“解数学题几乎不犯低级错误”“读长文档总结比以前准了一大截”。
如果这些反馈属实,那么即将在阿里云峰会上亮相的正式版,很可能会成为国内企业级AI应用的一次重要转折点——不是靠噱头,而是靠实力,重新定义“中国大模型能做什么”。