最新消息:关注人工智能 AI赋能新媒体运营

豆包领衔,国产视觉大模型全面超越

科技资讯 admin 浏览

国产大模型登顶全球榜单,字节跳动Doubao-Seed夺魁

在刚刚公布的SuperCLUE-VLM中文多模态视觉语言模型评测中,字节跳动推出的Doubao-Seed-2.0-Pro-260215以90.66分的总成绩拿下第一名,正式超越了此前被广泛看好的谷歌Gemini-3.1-Pro-Preview(89.35分)。这是国内AI模型首次在权威多模态评测中击败海外顶尖产品,引发行业热议。

image.png

国产模型集体发力,阿里、商汤、智谱齐入前列

本次评测共纳入17款主流模型,涵盖国内外头部玩家。除了Doubao-Seed拔得头筹,阿里巴巴Qwen3.5系列、商汤SenseNova、智谱GLM等国产模型均稳居前五,整体表现远超预期。相比之下,OpenAI的GPT-5.4、Meta的LLaVA-1.5等海外模型虽然仍有技术积累,但在中文语境下的图像理解、图文问答等任务中明显“水土不服”,排名普遍落在中游。

不少开发者和企业用户表示,这次结果不只是技术指标的胜利,更是中文场景适配能力的体现。“以前用海外模型做中文文档识别、海报文字提取,总要反复调参。现在国产模型直接‘看得懂’我们日常的图片和需求。”一位AI产品经理在社交平台留言。

强在基础,短板在专业

评测从“基础认知”“视觉推理”“视觉应用”三大维度展开,覆盖25项真实任务,包括商品识别、交通标志判断、医疗影像分析、工业质检图判读等。

在“基础认知”类任务中,国产模型普遍得分超过90分——比如准确识别一张包含中文菜单、二维码和手写备注的餐厅照片,Doubao-Seed和Qwen3.5几乎零失误。这说明它们对中文语境下的图文混合信息理解已非常成熟。

但问题也暴露出来了:在专业领域,比如CT片中的病灶定位、工厂流水线的微小缺陷检测,部分模型的准确率仍徘徊在70%左右,明显低于专业医疗或工业AI系统。有专家指出,这并非模型能力不足,而是缺乏高质量行业数据训练。“我们不是不会看图,而是没看过足够的‘医生视角’的片子。”一位医疗AI团队负责人坦言。

下一步:从“能看懂”到“看得准”

业内普遍认为,这场评测标志着国产多模态模型正式进入“可用”阶段,但真正的挑战才刚开始。下一步,如何把在通用场景的领先优势,转化到医疗、制造、教育等垂直领域,是所有厂商的共同课题。

目前,字节跳动已宣布将开源部分Doubao-Seed的推理能力,供开发者测试;阿里云也透露,Qwen3.5的医疗版正在与三甲医院合作落地。可以预见,未来半年内,我们或许会看到更多国产模型在真实业务中“跑起来”——不是排行榜上的分数,而是医院、工厂、课堂里的实际应用。