最新消息:关注人工智能 AI赋能新媒体运营

智谱AI发布GLM-Image,刷新文本渲染基准纪录

科技资讯 admin 浏览

GLM-Image:国产自研多模态大模型的里程碑之作

GLM-Image 是由智谱AI推出的全新一代多模态生成模型,首次实现“自回归+扩散”混合架构在中文场景下的全面落地。它不仅在图像生成质量上达到国际一线水平,更在文本渲染、长文本理解、高分辨率生成等关键难点上实现突破,成为全球首个在国产芯片上完成全流程训练的SOTA级多模态模型。

混合架构:自回归理解 + 扩散生成,双引擎驱动

GLM-Image 的核心架构融合了两大前沿技术:基于 GLM-4-9B-0414 初始化的自回归模块(90亿参数)负责理解复杂文本语义与结构逻辑,而采用 CogView4 单流DiT结构的扩散解码器(70亿参数)则专注于高保真视觉细节重建。这种“先理解、后生成”的协同机制,让模型既能读懂“在夕阳下的古寺前,一位穿汉服的女子手持油纸伞,伞面写满唐诗”这样的长句,又能精准还原每一笔书法的墨迹浓淡、衣纹褶皱与光影层次。

与传统潜扩散模型相比,GLM-Image 在中文文本渲染、多对象协同生成、语义一致性控制等方面表现尤为突出。尤其在需要精确还原文字内容的场景——如海报设计、广告图生成、古籍复原、电商详情页制作中,其表现远超同类开源模型。

三大技术突破:让文字在图像中“活”起来

1. 语义-VQ:更聪明的图像分词
传统VQVAE将图像切分为低语义的像素块,而GLM-Image首创“语义-VQ”编码策略,将图像划分为具有明确语义含义的区域(如“文字”“人脸”“建筑”“纹理”),显著提升训练收敛速度与生成可控性。这一创新使模型在生成包含复杂文字的图像时,能准确识别并保留每个字符的语义位置,避免“字错位”“笔画断裂”等常见问题。

2. 渐进式训练:从256到2048,一步到位
为解决高分辨率图像训练中常见的模糊、失真、失控问题,GLM-Image采用三阶段渐进式训练:先在256×256上学习基础结构,再在512×512上强化细节,最后在512–1024混合分辨率下进行微调。配合XOmni分词器16倍压缩与扩散解码器32倍上采样,最终可稳定生成高达1024×2048像素的超高清图像——这意味着一张A3尺寸的高清海报,无需后期放大,直接由模型原生输出。

3. Glyph-byT5:中文字符渲染的破局者
中文字符结构复杂、笔画繁多,是全球AI图像模型的共同难题。GLM-Image引入轻量级Glyph-byT5模型,对每个汉字进行字符级形态编码,学习其笔画顺序、结构比例与字体风格。实测显示,在“楷书”“行书”“隶书”等书法风格下,字符识别准确率提升47%,连“龘”“犇”“靐”等生僻字也能精准还原,彻底打破“AI不会写中文”的刻板印象。

权威评测登顶:开源模型首次超越闭源巨头

在AI图像生成领域最具挑战性的权威基准测试 CVTG-2k(Complex Visual Text Generation-2K)中,GLM-Image 凭借卓越的文本渲染能力取得历史性突破:

  • NED(归一化编辑距离):0.9557 —— 全球第一,超越 Google Imagen 3、Midjourney v6、Seedream 4.5 等闭源模型
  • 平均单词准确率:0.9116 —— 每100个文字中,错误少于9个

这是**首个在CVTG-2k测试中超越Seedream 4.5的开源模型**,标志着中国团队在多模态生成领域实现从“跟跑”到“领跑”的跨越。

在 LongText-Bench 长文本理解测试中,GLM-Image 在中文场景得分达 0.9788,英文场景达 0.9524,证明其不仅能“看图写文”,更能“读文绘图”——哪怕提示词长达500字以上,仍能精准捕捉每一个细节要求。

全栈国产化:首次在昇腾芯片上完成全流程训练

GLM-Image 不仅是技术突破,更是生态突破。从数据清洗、模型预训练、微调到推理部署,**全流程均在国产昇腾Atlas 800T A2服务器上完成**,依托昇腾NPU与昇思MindSpore框架,通过动态图多级流水、高性能融合算子、多流并行调度等创新技术,训练效率提升38%,能耗降低22%。

这意味着,开发者不再依赖海外算力或闭源框架,即可在中国本土算力底座上,训练和部署世界级的多模态模型。GLM-Image 的诞生,为国产AI生态提供了可复用的技术范式,也为未来教育、出版、文创、广告等行业提供了安全可控的生成式AI基础设施。

真实场景应用:不只是生成,更是创作

GLM-Image 不只是实验室里的“炫技”,它已广泛适配真实业务场景:

  • 电商设计:一键生成带商品名称、价格、促销标语的高清主图,支持自定义字体与排版
  • 文化复原:将古籍文字扫描件转化为高清书法图像,用于数字博物馆展示
  • 广告创意:输入“敦煌壁画风格,中央是‘双十一狂欢’五个篆体大字,周围飞天飘带环绕”,即刻输出专业级海报
  • 教育辅助:为语文课文自动生成配图,文字与意境高度契合,提升学生理解力

此外,模型还支持图像编辑、风格迁移、身份保持生成等图生图功能。你可以上传一张人物照片,要求“将其换为宋代文人服饰,手持毛笔,在山水画背景中题诗”,模型将保持人脸特征不变,仅重构服饰、背景与文字,实现真正的“语义级编辑”。

立即体验:开源免费,即开即用

GLM-Image 已在多个平台正式开源,开发者、设计师、研究者均可免费使用:

GLM-Image 的出现,不只是一个新模型的发布,它代表了中国AI从“使用工具”走向“创造工具”的关键一步。无论是企业用户、独立创作者,还是高校研究者,现在都可以在国产算力上,用中文提示词,生成世界一流的视觉内容——这,才是真正的技术自主。