ERNIE 4.5-VL-28B-A3B-Thinking:轻量级视觉语言模型的颠覆性突破
继ERNIE Bot系列多次刷新多模态性能纪录后,百度正式推出全新一代轻量级视觉语言模型——ERNIE 4.5-VL-28B-A3B-Thinking。这款模型仅使用30亿激活参数(3B activated parameters),却在多个国际权威评测中超越了参数规模大它10倍以上的竞品模型,包括MMBench、MMMU、ChartQA、VQAv2等,成为当前“小模型大能力”领域的标杆之作。

深度语义对齐:让AI真正“看懂”图像与文字的关系
本次升级的核心突破,在于对视觉与语言模态之间的语义对齐机制进行了系统性重构。百度团队构建了超过2000万组高质量视觉语言配对数据,涵盖学术图表、医疗影像、工业图纸、地图信息、社交媒体图文等复杂场景,远超以往公开数据集规模。
不同于传统模型“看到图就猜字”的简单关联,ERNIE 4.5-VL能精准理解“柱状图中哪根柱子代表2023年营收”、“医学CT图像中病灶与标注文本的对应关系”、“新闻配图中人物动作与标题情绪的逻辑一致性”。在MME(Multimodal Model Evaluation)基准测试中,其语义对齐准确率提升达27.3%,远超GPT-4o和Claude 3.5 Sonnet的同参数级别版本。
“以图思考”:像人类一样“放大细节、搜索未知”
最令人惊艳的是全新引入的“Thinking with Images”功能——模型不再被动接收图像,而是能主动“观察”和“探索”。
当你提问:“这张卫星图里的蓝色区域是水库吗?面积有多大?”模型会自动模拟人眼行为:先整体浏览,再局部放大疑似区域,比对周边地形与水文特征,最后调用图像搜索引擎比对公开地理数据库,返回带坐标和来源链接的结构化答案。这一能力,让模型首次在“长尾视觉知识”任务上接近人类水平——比如识别罕见植物品种、辨认老照片中的历史建筑、甚至从模糊监控画面中推断车牌号。
实测显示,在涉及冷门物体识别、稀有场景理解的VQAv2 Long-Tail子集上,ERNIE 4.5-VL的准确率比前代模型高出近40%。
五大核心能力,全面覆盖真实应用场景
- 复杂图表理解:可自动解析Excel图表、科研论文中的折线图、财务报表,输出趋势分析与数据摘要。
- STEM理科推理:只需上传一道物理题配图(如斜面滑块、电路图),模型能自动识别符号、计算受力、推导公式,给出完整解题步骤。
- 视觉定位(Visual Grounding):支持“找出图片中穿红色外套、戴眼镜的女性”这类细粒度定位,输出边界框坐标与语义标签,精度达92.1%(COCO-Text标准)。
- 自主工具调用:无需人工干预,可自动调用Google Images、Bing Visual Search、学术数据库(如PubMed)等外部工具,实现“看图搜答案”。
- 视频语义解析:可分析10分钟以上视频,识别关键帧、字幕时间轴、场景切换点,支持“找出视频中出现过三次的红色汽车”的检索。
全面开源,开发者可商用、可微调
百度宣布,ERNIE 4.5-VL-28B-A3B-Thinking即日起**全量开源**,采用Apache License 2.0协议,企业、个人均可免费商用,无需申请授权。
为降低使用门槛,百度已在以下平台提供一键部署方案:
- Hugging Face:提供模型权重、推理API与Gradio演示界面
- FastDeploy:支持CPU/GPU/NPU多端部署,移动端推理速度低于300ms
同时开放ERNIEKit训练工具包,内置LoRA高效微调模块与DPO偏好对齐流程,开发者仅需200组自有数据,即可在消费级显卡(如RTX 4090)上完成领域定制,快速适配医疗、教育、电商等垂直场景。
为什么这是一次“值得期待”的升级?
过去,高性能多模态模型动辄百亿参数,部署成本高、响应慢,难以落地。ERNIE 4.5-VL证明:真正实用的AI,不在于参数多大,而在于是否能“像人一样思考”。
它不只是一次技术迭代,更是视觉AI从“识别”走向“理解”的关键一步。无论是教育机构用它批改科学实验图、设计师用它自动生成图注、还是中小企业用它自动识别产品缺陷图——这些原本需要人工介入的环节,现在都能被一个轻量模型高效完成。
现在,你不需要等待大厂闭源模型的API调用权限,也不需要支付高昂的算力费用。**一个真正能“看懂图、会思考、能搜索”的视觉语言模型,已经免费摆在你面前。**