Google用GenAI加速四大开发场景，强化AI代理工具链

Google在I/O 2025大会中亮相Stitch专案，也就是一款以生成式AI模型驱动的UI原型生成工具，可根据使用者自然语言提示，来产出行动装置或网页版UI，而且是互动式的UI。（图片来源／Google）

今年的I/O大会，是Google生成式AI（GenAI）技术和应用大爆发的一次。除了端出各种令人惊艳的消费端GenAI成果，他们还揭露一系列用GenAI模型加速企业开发的工具，尤其，这些工具是Google内部实作经验的延伸，发展为对外服务、瞄準4大场景。

开发场景优化1：快速生成互动式UI

他们首先揭露，生成式AI模型加速UI设计的工具。

「Gemini 2.5 Flash模型又快又划算，我们用它打造了很多原型！」Google Gemini实验室副总监Josh Woodward在大会上如此开场。Gemini 2.5是Google开发的新一代生成式AI模型，今年3月发布Pro版本、4月揭露Flash版本，就成为Google内部开发的加速工具。

Google将生成式AI模型落地的成功经验，进一步扩大到自家产品，以Gemini 2.5系列模型为核心，融合程序开发和设计，推出一款名为Stitch的实验性UI生成工具，使用者用自然语言提示（Prompt），就能在1分钟左右得到UI原型和程序码。

这个UI「不是静态的萤幕截图，而是可以互动的介面，」Josh Woodward强调。跳出第一版UI后，使用者还能继续在对话栏，用自然语言提示修改UI原型，另也能手动调整区块颜色、亮暗模式等。在这过程中，Gemini 2.5 Flash和Pro版本模型会交互工作，来根据提示产生、修正UI原型。

要是使用者对生成的UI满意，就能複製程序码，贴到自己喜好的IDE环境或Figma工具继续编辑，或与团队协作。

开发场景优化2：快速生成Web App

除了加速UI设计，Google也用生成式AI产出网页App原型。

进一步来说，Google Cloud原本就有套一站式生成式AI开发工具Google AI Studio，它串接自家Gemini系列模型和其他模型API，使用者在网页介面输入提示，就能生成各种内容，如程序码、图片、影音等。

这次，Google DeepMind集团产品经理Logan Kilpatrick揭露新突破，他们把最新、最擅长程序码处理的Gemini 2.5 Pro模型，整合到Google AI Studio原生编辑器，加上自家GenAI SDK优化，更容易根据文字、图片或影片提示，来生成网页应用原型，缩短开发时间。

Logan Kilpatrick现场输入提示，要打造一套冒险游戏应用程序，系统马上调度Gemini和Imagen模型，先生成游戏规格，再产生程序码、自我修复错误，并在几分钟后，产出包含画面的应用程序原型。

之后，开发者可继续透过聊天介面，来调整、查看不同的原型版本，也能回溯到先前的检查点、还原修改等。开发者甚至能一键将新建的网页应用，部署到Cloud Run上。

开发场景优化3：大规模开发自动化

从用生成式AI模型生成UI、App，Google还用生成式AI来加强程序开发本身，在今年大会中揭露程序开发代理Jules公测版。

这个领域并非Google独步，不少公云大厂和程序开发业者都推出专属GenAI辅助开发工具，而Google这款Jules，是一套可在背景作业的非同步代理型AI开发助理，它以Gemini 2.5 Pro驱动，具备整合GitHub专案、自动完成一系列开发工作的能力。

Jules会将开发者的程序码库複製到Google云端VM，来写测试、建置新功能、修复错误、升级相依套件版本、提供语音版的变更纪录等，开发者一边工作，Jules就能在背景执行作业，完成后会提供说明。

特别的是，Jules可同时执行多任务，在VM中同时处理多个请求，适合大型、多文件的变更。

开发场景优化4：AI代理融入开发环境

同样是改善开发体验，Google还将生成式AI带入自家开发环境Colab，在今年大会宣布升级为AI优先的Colab。因为，他们用Gemini 2.5 Flash驱动的代理，来提供一系列优化功能，可在整个Notebook环境执行。

这些功能主要几种，比如常见的程序码生成和转换改写、查询Python函式库和请求使用範例、直接在Notebook中提出错误修复建议等。

另一类功能是结合新一代资料科学代理（DSA）的能力。今年3月，Google推出DSA，协助使用者探索资料、深入分析和找出洞察，而这次，Google升级DSA，整合至Colab的AI体验中，使用者可要求Colab审查已上传和现有文件、进行深度分析，还能触发完整的分析工作流程，包括先自主生成分析计画、执行必要的程序码、推理结果并呈现其洞察。

此外，融合升级版DSA的Colab，还能给予互动式回馈，在计画执行过程中提供回馈，好来决定是否重新规画或优化流程，确保分析结果贴近使用者的研究目标。

强化AI代理App开发工具链

不只将自己善用GenAI加速开发的经验产品化，变成生成UI、网页App工具，Google也用生成式AI，来优化AI代理App的开发。

比如Logan Kilpatrick宣布，Google GenAI SDK开始支援模型上下文协定（MCP），简化开发者打造AI代理App的难度，让App背后的模型更容易串接开源工具、给出更精準的回答。

再来，为了让AI代理App更自主完成任务，Google除了改善模型的函式呼叫、搜寻功能，还进一步推出新实验性工具URL Context，使用者只要输入网页连结，模型就能查阅该网页资讯，来确保生成的答案更即时精準。该工具目前一次可支援20个连结。

同时，Google也优化模型本身，来让AI代理App的体验更好。

首先，Google在其即时语音Live API中，新添Gemini 2.5 Flash原生语音功能（Native Audio）预览版，让AI更会听、更会说，不只生成的语音更自然、模型能即时调用工具、支援24种语言，使用者还能控制模型的声音、语调、整体风格。而且，模型能更好地辨识说话者和背景对话，进而判断何时该回应，让开发者能打造更自然的对话式AI体验。

此外，Google也将自家研发的多模态模型，整合至App开发工具，包括Imagen、Veo、Gemini等，範围涵盖图像、影片、音讯和语音生成，开发者可打造更多功能的App。

推新一代开放模型，供微调加速落地

不只提供生成式AI驱动的现成服务，Google也端出一系列新的开放模型，供开发者自行训练或微调成符合需求的工具，来执行特定任务，离线也可以。

比如，今年大会新推出Gemma 3n预览版，只需2GB记忆体，就能在行动装置端执行任务。它还有几个实务性优点，如多模态理解能力，可以理解并处理文字、图像、语音和影片内容，也支援多模态交互输入，另还内建可自动切换的子模型，例如从4B模型动态产生2B子模型，来因应不同装置和延迟需求。甚至，模型的日语、德语、韩语、西班牙语和法语翻译能力也更强了。

Google给出Gemma 3n可行的应用场景，比如可分析使用者环境（音讯、视觉）的即时互动体验、深层理解多模态（文字、图片、音讯和影片等）的离线应用，又或是即时语音转录、翻译和语音互动等应用。

还有多种专属开放模型和开发社群

除了Gemma 3n，Google也在Gemma 3模型架构基础上，亮相几款专用模型。首先是医疗领域专属的MedGemma，它指一系列以Gemma 3为基础、以医疗照护资料打造而成的模型，包括4B参数（即40亿）的多模态模型，以及27B参数的文字模型。MedGemma可以进行医学影像分类、解读影像和生成报告，还能进行临床推论、辅助临床决策和摘要重点，比如协助医生判读X光片、病理影像并写报告。开发者可以微调模型，在云端或本地端部署，来执行特定任务。

另一款专属模型是手语辨识模型SignGemma，专为聋哑和听障社群打造，可作为即时翻译工具，能将美国手语转换为英文。Google点出，SignGemma属于轻量化设计，可在资源有限的装置上执行，潜在的应用场景有即时翻译应用、将手语转换为文字或语音，可用于一般场合或是教育、医疗等场景。

SignGemma目前仍于测试阶段，预计今年底正式发布，未来预计扩展至更多手语和语言。

这两款专属模型，还只是众多开发者可用的其中2种。早在今年3月，Google就专门为Gemma开发者，成立了专属社群Gemmaverse。在这里，开发者可以交流创意、查看各种Gemma衍生应用。Google揭露，自Gemma系列模型发布1年多以来，相关模型下载量已超过1.5亿次，更累积超过7万个Gemma变形模型，这也是Google为其成立社群的原因，让开发者吸取更多实例、开发可落地的应用。

CB科技站

Google用GenAI加速四大开发场景，强化AI代理工具链

与本文相关的文章