智谱发布GLM-5V-Turbo：多模态编码大模型

智谱发布GLM-5V-Turbo：看一眼设计图，就能生成可运行的网页

4月2日，智谱AI正式推出GLM-5V-Turbo——一款能“看懂”界面、自动生成代码的多模态模型。它不靠文字指令，也不靠手动标注，你只需要截图一张Figma设计稿、发一段网页操作录屏，它就能还原出完整的前端代码，包括布局、颜色、交互逻辑，甚至响应式适配。

过去，AI写代码靠的是你写一堆文字描述：“按钮在右边，颜色是#3B82F6，悬停变暗”——但设计师的图从来不是这样写的。GLM-5V-Turbo直接读图：识别按钮、图标、间距、字体层级，甚至能分辨出哪个是静态元素、哪个是动态弹窗。

它支持直接调用截图、画框、网页抓取，连复杂PDF报告里的图表结构都能解析。测试中，它处理过包含120多个组件的Figma文件，生成的React+Tailwind代码，90%以上无需手动调整就能跑起来。

上下文窗口达到200k，意味着你可以把整个项目结构截图发给它，它能理解模块之间的依赖关系，而不是孤立地生成一个按钮。

前端团队已经开始用它做“设计稿转代码”：

它不只是个“截图翻译器”。结合AutoClaw智能体，它能像人一样打开网页、点击按钮、滚动加载、提取数据。比如：

这不是“模拟操作”，而是真正理解页面结构后的自主行为。在内测中，它成功从15个不同风格的金融网站中，准确提取出K线图、市盈率、成交量等关键数据，准确率超过92%。

智谱自研的智能体AutoClaw（被团队称为“龙虾”）原本只能处理文字任务，现在接入GLM-5V-Turbo后，它能直接读图了：

一位基金研究员说：“以前我得花一小时截图、截图、再截图，然后手动整理。现在我只要说‘把这份研报里的关键数据整理成表格’，它就全干了。”

过去，AI写代码像盲人摸象——你得用语言一点点描述世界。现在，GLM-5V-Turbo让你直接把现实世界“扔”给它：一张图、一段录屏、一个网页链接。

这不是炫技。这是工作流的重构。设计师不用再写需求文档，开发不用再对着图“翻译”，产品不用再反复确认“是不是这个意思”。

它不替代人，但它把重复劳动压缩到了分钟级。在UI/UX、前端开发、数据分析、自动化测试这些领域，它正在成为新的“标准工具”——就像Photoshop之于设计师，VS Code之于程序员。

如果你还在手动切图、写CSS、抄布局——是时候看看，AI已经能看懂你屏幕上的每一个像素了。