豆包领衔，国产视觉大模型全面超越

国产大模型登顶全球榜单，字节跳动Doubao-Seed夺魁

在刚刚公布的SuperCLUE-VLM中文多模态视觉语言模型评测中，字节跳动推出的Doubao-Seed-2.0-Pro-260215以90.66分的总成绩拿下第一名，正式超越了此前被广泛看好的谷歌Gemini-3.1-Pro-Preview（89.35分）。这是国内AI模型首次在权威多模态评测中击败海外顶尖产品，引发行业热议。

国产模型集体发力，阿里、商汤、智谱齐入前列

本次评测共纳入17款主流模型，涵盖国内外头部玩家。除了Doubao-Seed拔得头筹，阿里巴巴Qwen3.5系列、商汤SenseNova、智谱GLM等国产模型均稳居前五，整体表现远超预期。相比之下，OpenAI的GPT-5.4、Meta的LLaVA-1.5等海外模型虽然仍有技术积累，但在中文语境下的图像理解、图文问答等任务中明显“水土不服”，排名普遍落在中游。

不少开发者和企业用户表示，这次结果不只是技术指标的胜利，更是中文场景适配能力的体现。“以前用海外模型做中文文档识别、海报文字提取，总要反复调参。现在国产模型直接‘看得懂’我们日常的图片和需求。”一位AI产品经理在社交平台留言。

强在基础，短板在专业

评测从“基础认知”“视觉推理”“视觉应用”三大维度展开，覆盖25项真实任务，包括商品识别、交通标志判断、医疗影像分析、工业质检图判读等。

在“基础认知”类任务中，国产模型普遍得分超过90分——比如准确识别一张包含中文菜单、二维码和手写备注的餐厅照片，Doubao-Seed和Qwen3.5几乎零失误。这说明它们对中文语境下的图文混合信息理解已非常成熟。

但问题也暴露出来了：在专业领域，比如CT片中的病灶定位、工厂流水线的微小缺陷检测，部分模型的准确率仍徘徊在70%左右，明显低于专业医疗或工业AI系统。有专家指出，这并非模型能力不足，而是缺乏高质量行业数据训练。“我们不是不会看图，而是没看过足够的‘医生视角’的片子。”一位医疗AI团队负责人坦言。

下一步：从“能看懂”到“看得准”

业内普遍认为，这场评测标志着国产多模态模型正式进入“可用”阶段，但真正的挑战才刚开始。下一步，如何把在通用场景的领先优势，转化到医疗、制造、教育等垂直领域，是所有厂商的共同课题。

目前，字节跳动已宣布将开源部分Doubao-Seed的推理能力，供开发者测试；阿里云也透露，Qwen3.5的医疗版正在与三甲医院合作落地。可以预见，未来半年内，我们或许会看到更多国产模型在真实业务中“跑起来”——不是排行榜上的分数，而是医院、工厂、课堂里的实际应用。

CB科技站

豆包领衔，国产视觉大模型全面超越

国产大模型登顶全球榜单，字节跳动Doubao-Seed夺魁

国产模型集体发力，阿里、商汤、智谱齐入前列

强在基础，短板在专业

下一步：从“能看懂”到“看得准”

与本文相关的文章