谷歌发布Gemini Embedding 2：首个原生多模态嵌入模型

谷歌推出 Gemini Embedding2：一次输入，看懂图文音视频

谷歌刚刚发布了 Gemini Embedding2 —— 一个能同时“看图、听音、读文、析视频”的新模型。它不是用来写文章、生成图片的，而是专门用来“理解”你给它的各种信息：一张照片、一段录音、一段文字、一个PDF文件，甚至一段120秒的短视频，它都能把它们变成同一种“语言”——数学向量，让机器真正搞懂它们之间的关系。

过去，你要是想让AI理解一张带文字的图片，得先用OCR识别文字，再单独处理图片，最后拼起来分析。现在，你直接把图片和文字一起扔给 Gemini Embedding2，它能立刻告诉你：这张图里的人在说什么，这个视频里的背景音乐和画面情绪是否匹配，这份PDF里的图表和旁边的文字是不是对得上。

它能处理什么？真实场景能用上

不是概念演示，是真能用：

图片：直接传 JPG、PNG，不用先转文字
视频：最长120秒的 MP4 或 MOV，它能看懂画面内容和关键帧
音频：MP3、WAV 都行，能听出说话内容、情绪，甚至环境噪音
文档：最多6页的 PDF，能读表格、标题、段落，不丢信息
文本：支持100种语言，中文、阿拉伯语、斯瓦希里语、泰语……都能准确理解意图

你甚至可以一次提交：“这张图 + 这段录音 + 这段文字”，它会告诉你三者是不是在说同一件事。比如，你上传一段法庭录音、一张现场照片和一份证词PDF，系统能快速找出哪段话和哪张图矛盾，哪段录音和哪页文件内容吻合。

不只是搜索，是“找证据”的新工具

谷歌举了个例子：法律取证。以前律师要翻几万条记录，看照片、听录音、读文件，人工比对，耗时几周。现在用 Gemini Embedding2，系统能在几秒内从百万级跨媒体数据里，找出最相关的证据组合——不是靠关键词匹配，而是靠“理解”内容是否相关。

这不只是给律师用的。记者查证视频真伪、企业做客服工单分析、医疗团队整理患者影像与病历、甚至你做短视频内容库管理——只要你的数据是“杂的”，它就能帮你理清楚。

开发者怎么用？别等了，现在就能试

谷歌已经把模型开放给开发者了。你不需要自己训练模型，也不用懂复杂的AI框架。通过 Vertex AI 或 Gemini API，几行代码就能接入：

```python # 示例：一次传入图片+文字，获取嵌入向量 response = embedding_model.embed( content=["这是一只在雨中奔跑的狗", image_data], model="gemini-embedding-2" ) ```

你不需要把数据拆成“文本”“图像”“音频”三个部分分别处理了。统一输入，统一输出，省掉中间一堆麻烦的预处理流程。

目前是公开预览阶段，免费额度有限，但已经有不少团队在测试。有人用它做电商商品搜索——上传一张衣服照片，再加一句“想要类似但更透气的”，系统能直接推荐库存里匹配的款式，而不是靠标签“T恤”“蓝色”这种死关键词。

未来会怎样？别只看技术，看它怎么改变你的工作

这不是又一个“AI画图”噱头。Gemini Embedding2 的价值，在于它让AI真正开始“看世界”的方式，和人一样——不是拆成零件，而是整体理解。

你手机里那些杂乱的照片、录音、聊天记录、文档，未来可能不再需要手动分类。你的工作流，可能从“我得找文件”变成“我描述一下我要什么，系统自己找出来”。

如果你每天要处理大量非结构化数据——图片、视频、语音、文档混在一起——那么这个工具，不是“加分项”，而是“必选项”。

现在就能去试。别等别人用上了，你还在手动翻文件夹。

CB科技站