Google于周四(11月20日)发布了Nano Banana Pro(Gemini 3 Pro Image),这是一款专业级图像生成模型,强调高画质输出、具备推理能力、优化文字渲染,并能处理复杂构图。
Google在2025年8月正式推出图像生成模型Gemini 2.5 Flash Image,内部代号为Nano Banana,可用于修复照片或生成图像,用户可通过Gemini应用使用。上线10天内,全球用户已使用该模型生成超过2亿张图片,其中最受欢迎的提示是生成玩偶。自此,“纳米香蕉”这一代号取代了原本的Gemini Image正式名称,连Gemini 3 Pro Image的发布,Google也在标题中直接称为Nano Banana Pro。
Nano Banana Pro与前一代最大的差异在于推理能力与文字质量。作为Gemini 3 Pro Image,该模型可利用搜索接地技术,将现实世界的内容直接视觉化,包括食谱流程、植物信息、天气变化、历史背景与数据图表等。Google指出,新版模型能理解更多上下文,使教育、科普与商业应用中的图像更贴近事实与逻辑。

文字渲染是此次升级的重点之一。前一代容易出现错字或变形,Nano Banana Pro则可在图像中生成清晰、可读的多语言文字,并支持字体样式、粗细与排版控制。模型能在海报、产品包装、信息图表与界面原型中呈现段落级内容,也能将图片中的英文翻译成其他语言,同时保持原有版面,可用于跨市场视觉测试。
构图与合成能力也得到强化。Nano Banana Pro可同时处理最多14张图片,并保持最多5个人物的光线、材质与外貌一致性,适用于情境视觉、时尚图像、团体照与品牌概念示意。Google表示,新版模型能维持角度、阴影与表面反射的完整性,可用于将草图转换为产品原型或建立复杂3D构图。

Nano Banana Pro还加入了多项专业级图像控制功能,包括局部编辑、光线调整、景深切换、焦点选择、相机角度设置与色彩分级。用户可切换昼夜场景、重新设定前景对焦,或输出1K、2K与4K分辨率,以适配广告、印刷、演示与社交媒体需求。
Google提出了Nano Banana Pro的使用技巧,建议在提示语中同时描述主体、构图、动作、场景与风格,以提升画面一致性;若需专业效果,可加入光线、镜头角度、景深与宽高比等参数。进行多图合成时,建议分别注明每张图片的角色与用途,如人物、背景或姿势来源,有助于模型维持外观一致并控制整体构图。
目前Google已在多个产品中提供Nano Banana Pro。普通用户可通过Gemini应用中的“创建图像”功能使用;开发者可通过Gemini API、AI Studio与Vertex AI获取;企业与营销团队可在Google Ads、Google Slides与Vids中使用;Flow则提供分镜与视频场景控制功能。不同方案具有不同的使用额度,免费用户在用完额度后将退回前一代Nano Banana,而Google AI Plus、Pro与Ultra订阅用户可获得更完整功能。