最新消息:关注人工智能 AI赋能新媒体运营

纳米香蕉模型爆红,上线10天生成图片突破2亿张,下周将进行小改版,支持更高分辨率的图片。

科技智能 admin 浏览 评论

纳米香蕉模型爆红,上线十天生成超过2亿张图片,亚太地区最热,「公仔提示」是排名第一的模型生成提示。

纳米香蕉模型大爆红,谷歌公布了这款新模型的最新使用数据,上线十天,已经生成超过2亿张图片,尤其是亚太地区参与度最积极,甚至引领了全球的用法。大陆地区流行的「公仔提示」,正是纳米香蕉(Nano Banana)模型生成图片的第一名提示。

谷歌早在3月时,就发布了第一款图像编辑模型Gemini 2.0 Flash,可以通过多轮对话来修改图片的内容,这款模型大受好评,但用户希望拥有更强的图片编辑能力,特别是想保留自己的模样。

上周二(8月26日),谷歌推出了新款图像编辑模型Gemini 2.5 Flash Image,也就是大家热议的Nano Banana模型。负责Gemini应用多模态生成技术的谷歌产品经理David Sharon表示:「这款模型最大的突破点是,可以保留原图的相似性和面部特征,让用户可以用全新的方式想象自己。」

新款模型大受欢迎,上线仅十天,全球就爆量生成了超过2亿张图片,Gemini应用程序也新增了1千万名新用户。谷歌特别对亚太地区用户的参与程度感到惊讶,尤其是泰国、印尼和菲律宾。菲律宾生成了超过2千5百万张图片,印尼2千万张,泰国也多达1850万张。David Sharon强调:「亚太地区引领了全球如何使用这款新模型。」

例如,有人会生成自己在不同年龄的模样,或是自己身处不同年代——60、70、80年代,或是在知名电影场景中的样子。在泰国、印尼和菲律宾最流行的就是「公仔提示」,把自己变成一个3D公仔和包装盒,这是目前排名第一的提示指令。

Nano Banana模型背后包括了两套模型,一款是专门生成图片的扩散模型(Diffusion Model),也就是可以生成高度逼真图片的Imagen 4,另一套则是Gemini模型,例如Gemini Flash 2.5或Pro 2.5,通过Gemini模型的逻辑、推理、编程开发和世界知识,来指导扩散模型如何生成图片。这款模型也是一个多功能模型,可以用于执行不同的任务。

目前的纳米香蕉模型版本,还未推出谷歌计划提供的最佳分辨率版本。David Sharon透露,模型端和客户端还有一些问题需要处理,预计下周的模型更新,就可以提供比现在更高分辨率的图片,并开放下载,至于4K分辨率等更高质量的版本,则还没有发布计划。

每一张由谷歌模型生成的图片,都会隐藏SynthID的隐形数字水印,可用于判断一张图是否由谷歌的AI生成。凡是通过谷歌任何服务进行处理的AI图片,都会保留原始的水印。谷歌正在开发一款面向消费者的工具,可以让普通用户上传图片进行检测。

为了避免图像生成工具被滥用,谷歌内部进行了大量红队测试、评估和政策讨论,也提供了许多防护机制和安全过滤器,SynthID数字水印也是其中一项应对措施。

谷歌透露,未来半年的重点目标是服务用户,因为用户增长速度非常惊人,我们正全力跟上这一需求,并根据用户反馈的问题进行改进。目前这款模型还有一些前沿挑战有待解决,例如一张图经过多轮对话修改后质量下降的问题,或是同一场景中多个角色的图像质量提升等。目前,Gemini应用App是Nano Banana的主要使用平台,尚未计划将其发展为独立App。

David Sharon透露,我们非常兴奋地尝试并致力于让Gemini生成的图片能够自动生成视频,从图片到视频的跨模态应用是我们的关注方向,但目前还没有明确的时间表。

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论