Google I/O 发布 Gemini Omni 模型,视频编辑只需说话
Google 在今年的 I/O 开发者大会上推出一系列 AI 创作工具更新,都围绕新一代 Gemini 模型家族展开。出发点很明确——让生成图片、视频、音频这些多媒体的门槛再低一点,创意落地的速度再快一点。
这次更新的核心是 Gemini Omni 模型。它能够同时处理文本、图像、音频和视频,并且直接生成连贯的视频内容。跨模态的理解和转换,被整合进了一个模型里。
更让创作者关注的是新加入的“对话式编辑”。过去需要拖拽时间线、分层调整的剪辑操作,现在用自然语言描述即可。比如你想给视频换个角色、调整一下光线,或者把整个场景风格换掉,只需要对模型提一句,AI 就能识别意图并完成编辑。这等于把后期制作中繁琐的步骤,交给了一句话指令。
Google 释放的信号是:AI 工具正在从单纯的内容生成器,转向能听懂人话、能协作的伙伴。模型学会理解自然语言中的需求之后,多模态内容生成的专业度和灵活度都能往上走。创作者可以更专注在创意本身,把技术操作留给 AI。