Nano Banana Pro发布，显著提升文字渲染效果并具备推理能力

Google于周四（11月20日）发布了Nano Banana Pro（Gemini 3 Pro Image），这是一款专业级图像生成模型，强调高画质输出、具备推理能力、优化文字渲染，并能处理复杂构图。

Google在2025年8月正式推出图像生成模型Gemini 2.5 Flash Image，内部代号为Nano Banana，可用于修复照片或生成图像，用户可通过Gemini应用使用。上线10天内，全球用户已使用该模型生成超过2亿张图片，其中最受欢迎的提示是生成玩偶。自此，“纳米香蕉”这一代号取代了原本的Gemini Image正式名称，连Gemini 3 Pro Image的发布，Google也在标题中直接称为Nano Banana Pro。

Nano Banana Pro与前一代最大的差异在于推理能力与文字质量。作为Gemini 3 Pro Image，该模型可利用搜索接地技术，将现实世界的内容直接视觉化，包括食谱流程、植物信息、天气变化、历史背景与数据图表等。Google指出，新版模型能理解更多上下文，使教育、科普与商业应用中的图像更贴近事实与逻辑。

文字渲染是此次升级的重点之一。前一代容易出现错字或变形，Nano Banana Pro则可在图像中生成清晰、可读的多语言文字，并支持字体样式、粗细与排版控制。模型能在海报、产品包装、信息图表与界面原型中呈现段落级内容，也能将图片中的英文翻译成其他语言，同时保持原有版面，可用于跨市场视觉测试。

构图与合成能力也得到强化。Nano Banana Pro可同时处理最多14张图片，并保持最多5个人物的光线、材质与外貌一致性，适用于情境视觉、时尚图像、团体照与品牌概念示意。Google表示，新版模型能维持角度、阴影与表面反射的完整性，可用于将草图转换为产品原型或建立复杂3D构图。

Nano Banana Pro还加入了多项专业级图像控制功能，包括局部编辑、光线调整、景深切换、焦点选择、相机角度设置与色彩分级。用户可切换昼夜场景、重新设定前景对焦，或输出1K、2K与4K分辨率，以适配广告、印刷、演示与社交媒体需求。

Google提出了Nano Banana Pro的使用技巧，建议在提示语中同时描述主体、构图、动作、场景与风格，以提升画面一致性；若需专业效果，可加入光线、镜头角度、景深与宽高比等参数。进行多图合成时，建议分别注明每张图片的角色与用途，如人物、背景或姿势来源，有助于模型维持外观一致并控制整体构图。

目前Google已在多个产品中提供Nano Banana Pro。普通用户可通过Gemini应用中的“创建图像”功能使用；开发者可通过Gemini API、AI Studio与Vertex AI获取；企业与营销团队可在Google Ads、Google Slides与Vids中使用；Flow则提供分镜与视频场景控制功能。不同方案具有不同的使用额度，免费用户在用完额度后将退回前一代Nano Banana，而Google AI Plus、Pro与Ultra订阅用户可获得更完整功能。

CB科技站

Nano Banana Pro发布，显著提升文字渲染效果并具备推理能力

与本文相关的文章