智谱发布GLM-5V-Turbo：赋能AI智能体精准感知能力

GLM-5V-Turbo 正式发布：看一眼设计图，就能写出前端代码

4月2日，智谱AI正式推出GLM-5V-Turbo——一款专为视觉编程打造的多模态模型。它不只懂代码，更看得懂你屏幕上的设计稿、网页截图、甚至一段操作录屏。你不再需要手动把Figma图转成HTML，也不用再对着原型图一点点猜间距和颜色。现在，你只需要截图发过去，它就能还原出结构清晰、可运行的前端工程。

这不是概念演示，也不是实验室里的玩具。我们测试过多个真实项目：一张来自Figma的电商首页截图，30秒内生成了完整的React + Tailwind代码；一段手机端APP的操作录屏，它自动识别了按钮跳转逻辑，写出了对应的导航结构；甚至一张手绘草图，它也能猜出你想要的布局，并输出带响应式设计的代码。

看得清，写得准，还能自己“逛”网页

GLM-5V-Turbo的核心，是把“视觉理解”和“代码生成”真正打通了。

它能直接读取截图、网页、PDF里的图表和排版，不只是识别文字，还能判断哪些是标题、按钮、图片容器、导航栏——甚至能分辨出你用的是Ant Design还是Material UI风格。支持画框选区、截图分析、网页抓取，就像你坐在电脑前自己动手一样。

上下文窗口扩展到200k，意味着你可以丢给它一个完整的项目文件夹截图，包含几十个组件、样式文件和注释，它依然能理清结构，知道哪里该改、哪里要优化。在多个主流多模态编码评测中，它的表现超过同规模模型，而且纯文本的逻辑推理能力一点没打折——写算法、改Bug，照样靠谱。

最实用的一点：它能自己“上网”。配合Claude Code等框架，它可以像真人一样打开网页、点击按钮、翻页、收集信息。比如你要复刻一个竞品的支付流程，你不用手动截图每个步骤，它自己能走一遍，把流程和代码一起给你。

从草图到上线，省掉中间那十小时

设计师画了个低保真原型，交给前端开发，等了三天才拿到第一版——这种事，现在可以结束了。

你把设计稿截图发给GLM-5V-Turbo，它能：

还原所有组件层级，包括嵌套结构和间距
精准匹配颜色值（#FF6B6B？#E53935？它能对上）
识别字体大小、行高、字重，甚至动画过渡效果
输出可运行的Vue、React或HTML/CSS代码，支持Vite、Next.js等主流框架

你不需要再用“像素级还原”这种词来要求开发——它真的能还原。更别说，你还可以直接在对话里说：“把顶部导航改成暗色模式”“按钮圆角调大一点”“这个图片换成产品主图”，它立刻改，实时预览。

“龙虾”升级了：现在能看懂K线图，还能自动生成研报

智谱自研的AI助手AutoClaw（外号“龙虾”）接入GLM-5V-Turbo后，彻底变了样。

过去，它只能分析文字报告。现在：

你丢给它一张券商研报里的图表，它能说出趋势、关键拐点、对比数据
看到K线图，它能识别支撑位、压力位、成交量变化
能同时抓取4个数据源（Wind、同花顺、财报、新闻），60秒内整理成带图表的PPT初稿

我们试过让“龙虾”分析一家新能源公司的季度财报。它不仅提取了营收数据，还从附图中识别出毛利率变化曲线，自动生成了“毛利率连续两季度回升，主要得益于成本控制优化”这样的结论，并配上图表，排版完整，直接能拿去汇报。

这不是AI写代码，是AI在帮你干活

过去，AI写代码像盲人摸象——你给它一段文字描述，它猜你要什么。现在，你直接给它你看的东西：屏幕、截图、设计稿、操作录屏。它不再需要你翻译成“语言”，它直接看懂。

这不是科幻。我们已经看到不少独立开发者、小团队、产品负责人开始用它：

创业者用它把Figma原型直接转成MVP，省下2周开发时间
设计师自己改前端，不用再等工程师
分析师不用手动截图+复制粘贴，自动生成带图的周报

你不需要懂技术，也能用它。你不需要是专家，也能做出专业级的界面。

GLM-5V-Turbo不是要取代程序员，而是把那些重复、琐碎、耗时的“翻译工作”——把设计变成代码、把图表变成文字、把操作变成流程——统统自动化了。让你把时间，留给真正该动脑的事。

现在，你只需要截图，剩下的，交给它。

CB科技站