智谱发布GLM-5V-Turbo:看一眼设计图,就能生成可运行的网页
4月2日,智谱AI正式推出GLM-5V-Turbo——一款能“看懂”界面、自动生成代码的多模态模型。它不靠文字指令,也不靠手动标注,你只需要截图一张Figma设计稿、发一段网页操作录屏,它就能还原出完整的前端代码,包括布局、颜色、交互逻辑,甚至响应式适配。

不是猜代码,是真“看见”了界面
过去,AI写代码靠的是你写一堆文字描述:“按钮在右边,颜色是#3B82F6,悬停变暗”——但设计师的图从来不是这样写的。GLM-5V-Turbo直接读图:识别按钮、图标、间距、字体层级,甚至能分辨出哪个是静态元素、哪个是动态弹窗。
它支持直接调用截图、画框、网页抓取,连复杂PDF报告里的图表结构都能解析。测试中,它处理过包含120多个组件的Figma文件,生成的React+Tailwind代码,90%以上无需手动调整就能跑起来。
上下文窗口达到200k,意味着你可以把整个项目结构截图发给它,它能理解模块之间的依赖关系,而不是孤立地生成一个按钮。
真实场景:设计师发图,程序员省下三天
前端团队已经开始用它做“设计稿转代码”:
- 设计师把Figma链接发到群里,开发人员截图发给GLM-5V-Turbo,10秒后拿到可运行的Vue项目,连动画过渡都还原了。
- 有人用它复刻了一个电商详情页,从截图到部署上线,只用了27分钟——传统流程至少要两天。
- 有团队用它批量处理100+个后台管理页面模板,自动生成代码库,节省了3名工程师一个月的工作量。

不只是写代码,还能“逛网页”
它不只是个“截图翻译器”。结合AutoClaw智能体,它能像人一样打开网页、点击按钮、滚动加载、提取数据。比如:
- 输入“帮我收集最近三个月小米股票的财报图表”,它自动打开雪球、东方财富,截图、识别曲线、提取数值,最后生成带图表的PDF报告。
- 有人让它分析一个竞品网站的用户流程:它自己点进首页、登录、加购、结算,画出完整的跳转路径图。
这不是“模拟操作”,而是真正理解页面结构后的自主行为。在内测中,它成功从15个不同风格的金融网站中,准确提取出K线图、市盈率、成交量等关键数据,准确率超过92%。
“龙虾”升级了,现在能看懂图表了
智谱自研的智能体AutoClaw(被团队称为“龙虾”)原本只能处理文字任务,现在接入GLM-5V-Turbo后,它能直接读图了:
- 券商研报里的折线图、柱状图、热力图,它能识别坐标轴、数据点、趋势线。
- 能对比不同公司的营收增长曲线,自动标注拐点。
- 60秒内完成5个数据源的截图采集、信息提取、图文整合,输出一份带图表的行业简报。
一位基金研究员说:“以前我得花一小时截图、截图、再截图,然后手动整理。现在我只要说‘把这份研报里的关键数据整理成表格’,它就全干了。”
真正的改变,是让编程不再“猜”
过去,AI写代码像盲人摸象——你得用语言一点点描述世界。现在,GLM-5V-Turbo让你直接把现实世界“扔”给它:一张图、一段录屏、一个网页链接。
这不是炫技。这是工作流的重构。设计师不用再写需求文档,开发不用再对着图“翻译”,产品不用再反复确认“是不是这个意思”。
它不替代人,但它把重复劳动压缩到了分钟级。在UI/UX、前端开发、数据分析、自动化测试这些领域,它正在成为新的“标准工具”——就像Photoshop之于设计师,VS Code之于程序员。
如果你还在手动切图、写CSS、抄布局——是时候看看,AI已经能看懂你屏幕上的每一个像素了。