最新消息:关注人工智能 AI赋能新媒体运营

智象未来发布200B参数全模态大模型,赋能世界理解

科技资讯 admin 浏览

北京开放日首秀:智象未来发布2000亿参数图像大模型HiDream-O1-Image-Pro

就在上周,北京一场低调却重磅的开放日上,智象未来正式推出了其最新图像大模型——HiDream-O1-Image-Pro。这不是又一个“文生图”工具,而是一个能真正“看懂”画面、理解逻辑、甚至模仿人类创作意图的系统。参数规模超过2000亿,是目前全球少数突破千亿级的原生全模态图像模型之一。在权威评测平台如COCO、Text-to-Image Benchmark和Artificial Analysis上,它在图像质量、文字渲染准确率、多主体一致性等关键指标上全面超越了Stable Diffusion XL、DALL·E 3等主流模型。

更让人意外的是,这款闭源模型的“小兄弟”——80亿参数的开源版本,早在几个月前就登顶了Artificial Analysis全球开源文生图榜单第一,而且是前20名中参数最小的。这意味着,同样的效果,它用的算力更少,跑得更快,对开发者和中小团队更友好。

为什么“原生全模态”是下一代AI的关键

现在市面上大多数AI图像模型,本质是“拼凑货”:文本用一个模型处理,图像用另一个模型压缩,再靠一个中间层强行对接。结果就是——文字写得再漂亮,画出来可能缺胳膊少腿;画面再细腻,也看不懂“一个人坐在椅子上”和“一个人踩在椅子上”的区别。

智象未来的UiT(Unified Transformer)架构,直接把图像像素、文字描述、用户指令、甚至时间顺序,全都变成同一种“语言”输入模型。就像人脑不是先看文字再想画面,而是同步理解语义和视觉信息。这带来了质的飞跃:

  • 文字渲染:能准确写出“星巴克”logo、中文书法、手写体签名,且不扭曲变形;
  • 指令编辑:你说“把左边的猫换成狗,但保持它在窗台上的姿势”,它真能改,不乱加背景;
  • 多主体生成:五个人在咖啡馆聊天,每个人的表情、动作、衣服风格都不一样,互不干扰。

创始人梅涛说:“我们不追求‘更像照片’,我们追求‘更像人眼看到的世界’。”这句话,正在被越来越多的创作者验证。

不是模型在跑,是商业在跑

技术再牛,最终得有人用。智象未来没有停留在实验室,而是让模型直接走进了真实生意里。

HiBurst(商业营销智能体):已经成了TikTok官方认证的Top 5服务商。不是噱头——每天自动生成超过3000条电商短视频,覆盖服装、美妆、家居等品类,单月GMV破亿。一位杭州卖家说:“以前请团队拍10条视频要一周,现在AI半小时出100条,我挑5条投流,转化率还高了。”

帧赞(AI影视创作智能体):5000多分钟的短漫剧,不是AI拼贴,是完整剧本+分镜+配音+运镜全流程生成。多家MCN机构已用它批量生产“悬疑短剧”“情感微剧”,成本不到人工的1/10。有团队靠这套系统,在抖音上单条视频播放破2亿。

vivago(社媒创作智能体):全球4000万用户在用,从纽约的独立博主到东京的网红,都在用它做“1分钟故事视频”。有人用它把日记变成动画,有人用它做产品开箱,连日本一家养老院都用它给老人生成“回忆短片”。

不只是技术公司,正在成为内容基础设施

开放日当天,智象未来宣布与上影新视野基金、蓝色光标、捷成世纪、倍尔健康达成战略合作。这不是简单的“技术合作”,而是真金白银的生态共建:

  • 与上影合作,探索AI辅助电影前期概念设计,缩短剧本视觉化周期;
  • 与蓝色光标联手,为品牌定制“AI营销流水线”,从脚本到投放一键生成;
  • 与倍尔健康合作,开发“健康科普动画生成系统”,让复杂医学知识变成普通人能看懂的动态短片。

这些都不是PPT上的愿景,而是已经落地的项目。一位参与合作的影视制片人说:“我们以前怕AI抢饭碗,现在发现,它只是让那些没资源的小团队,也能拍出电影感的东西。”

下一步:让AI“看见”世界,而不是“画”世界

智象未来的目标,不是做一个更好的“画图工具”。他们想做的,是让AI能理解“为什么”。

比如,你让AI生成“一个孩子在雨天撑伞走过积水路面”,普通模型只会画个孩子、一把伞、一点水花。而HiDream-O1-Image-Pro会理解:雨滴会打在伞面上形成水痕,积水会反射路灯的光,孩子的鞋子会湿,裤脚会沾泥——这些细节不是靠数据“背”出来的,是模型内化了物理规则和空间逻辑。

这,才是通往“世界模型”的路。不是模仿人类,而是模拟世界运行的方式。

在资本层面,这是智象未来半个月内的第二轮融资,深创投、金浦投资等一线机构再度加码。市场用真金白银投票:当所有人都在卷参数、卷速度时,真正能“理解世界”的模型,才是未来十年的基础设施。

智象未来说,他们的愿景是“Imaging the World”——不是生成图像,而是用AI重建我们对世界的感知方式。

而这一切,才刚刚开始。