谷歌 I/O 更新 AI 创作工具，多模态生成更“听劝”

Google I/O 发布 Gemini Omni 模型，视频编辑只需说话

Google 在今年的 I/O 开发者大会上推出一系列 AI 创作工具更新，都围绕新一代 Gemini 模型家族展开。出发点很明确——让生成图片、视频、音频这些多媒体的门槛再低一点，创意落地的速度再快一点。

这次更新的核心是 Gemini Omni 模型。它能够同时处理文本、图像、音频和视频，并且直接生成连贯的视频内容。跨模态的理解和转换，被整合进了一个模型里。

更让创作者关注的是新加入的“对话式编辑”。过去需要拖拽时间线、分层调整的剪辑操作，现在用自然语言描述即可。比如你想给视频换个角色、调整一下光线，或者把整个场景风格换掉，只需要对模型提一句，AI 就能识别意图并完成编辑。这等于把后期制作中繁琐的步骤，交给了一句话指令。

Google 释放的信号是：AI 工具正在从单纯的内容生成器，转向能听懂人话、能协作的伙伴。模型学会理解自然语言中的需求之后，多模态内容生成的专业度和灵活度都能往上走。创作者可以更专注在创意本身，把技术操作留给 AI。