最新消息:关注人工智能 AI赋能新媒体运营

智谱联合华为发布全流程国产多模态大模型GLM-Image,打破算力垄断

科技资讯 admin 浏览

GLM-Image 正式开源:国产AI图像生成的新里程碑

智谱AI联合华为,正式开源新一代多模态图像生成模型 GLM-Image。这不是又一次“参数堆砌”的发布,而是一次真正从底层算力到应用落地的全栈国产化突破——它是首个在国产芯片上完成从数据清洗、模型训练到推理部署全流程的SOTA级图像生成模型,运行在华为昇腾Atlas 800T A2服务器上,基于昇思MindSpore框架,没有依赖任何国外算力或框架。

过去,国内做图像生成,要么靠国外云平台跑模型,要么用开源框架“缝合”训练。GLM-Image不一样。它从一开始就是为国产环境设计的,训练数据、算力、框架、优化全部自研。这意味着,它不只是“能跑”,更是“能扛得住”——在真实业务场景中稳定输出,不卡顿、不掉线、不依赖海外服务。

不是“画得像”,而是“懂你要什么”

GLM-Image 采用了一种少见但实用的架构:自回归 + 扩散解码器混合设计。简单说,它不像传统AI绘画那样“盲猜”画面,而是像人一样先理解整体意图,再逐层细化细节。你给它一句“做一张科技展海报,主视觉是AI机器人在展示中文古诗,背景是水墨山水”,它能准确把“汉字”“书法风格”“人物比例”“排版留白”全安排明白。

这不是吹。在LongText-Bench、COCO Caption、Text2Image-10K等权威榜单中,GLM-Image 在开源模型里排名第一,尤其在中文文本生成图像任务中,准确率远超同级模型。你让它画“清明上河图风格的地铁站”,它不会把古人画成穿西装,也不会把牌匾上的字写成乱码——这是很多国外模型都做不到的。

它还支持“图像到图像”编辑:上传一张草图,能自动补全细节;换风格,不改变主体结构;多人物场景,能保持每个人的脸和衣服风格一致。做PPT的设计师、做电商海报的运营、做科普插图的老师,都能直接用上。

image.png

一张图只要0.1元,还能自适应任何尺寸

开源不是口号。GLM-Image 已在 GitHub 和 Hugging Face 全面开放,代码、权重、训练日志全部公开,连微调教程都写得清清楚楚。

更实在的是价格:API调用低至每张图0.1元。你不用买显卡,不用租云服务器,写几行代码就能生成高清图。做短视频的博主,一天生成50张封面,成本不到5块钱。做文创产品的团队,批量生成不同风格的包装图,也不用再请画师一轮轮改稿。

它还支持从1024×1024到2048×2048任意分辨率生成,不用重新训练。你做手机壁纸、做海报、做印刷品,同一个模型通吃。过去需要多个模型适配不同场景,现在一个就够了。

image.png

不只是模型,是一套能用的工具链

智谱已经同步上线了轻量版推理工具,支持本地部署,连RTX 3060这样的消费级显卡都能跑。社区里已经有开发者用它做微信小程序、做AI绘画插件,甚至有人把它接入了Notion,直接在文档里生成配图。

下一步,他们计划推出“极速版”,推理速度提升3倍以上,目标是让普通用户在手机端也能实时生成图像。这不是远景,是已经排上日程的路线图。

image.png

为什么这次不一样?

我们见过太多“国产AI”——参数大、发布会热闹,但用起来卡、贵、不靠谱。GLM-Image 的价值,不在于它多“先进”,而在于它“好用”。

  • ???????? 全栈国产:从芯片到框架,从训练到部署,没有“黑箱”。
  • ???? 中文强项:汉字、古诗、书法、排版,不是“能认”,是“能画得对”。
  • ???? 真正低价:0.1元/张,比很多AI绘图App还便宜。
  • ????? 开源开放:代码、模型、文档全公开,开发者能改、能用、能商用。

这不是一场技术秀,而是一次国产AI从“能做”到“真用”的跨越。如果你是设计师、内容创作者、教育工作者,或者只是想试试国产AI能做什么——现在,你可以直接上手了。

GitHub:https://github.com/zai-org/GLM-Image

Hugging Face:https://huggingface.co/zai-org/GLM-Image