文 | 硅基星芒
若论当前最火的AI应用,非谷歌的“香蕉”——Nano Banana莫属。
Nano Banana原名是Gemini 2.5 Flash Image,但自从它“验明真身”,大家普遍反映还是Banana好记。
而“听劝”的谷歌,也马上把模型名换了回去。
不论是文本生成还是图像编辑,Nano Banana都展现出了断档领先的实力。
首先来看看评分:
图:LMarena文生图模型排行榜
图:LMarena图像编辑模型排行榜
可以看到,文生图能力属于最优一档,而图像编辑能力更是碾压级别,几乎砸穿了Photoshop的锅。
我们可以笃定,Nano Banana之后,全球软件业彻底变天了。
01 用户体验:“惊艳”两个字已不足以形容
事实上,“惊艳”这两个字,已经不足以形容Nano Banana的强大。
先前的文生图评测中,我们已经见识过它的本事。
但根据Gemini API文档中的描述,它还有几个其他的“拿手好活”:
在Nano Banana被发现出现于LMarena之前,各家大模型对于文生图中的文字几乎都“束手无策”。
哪怕不提汉字,只是英文单词,生成出来的基本都是乱码,令人难以理解。
Nano Banana轻而易举地攻克了这一难关。
而最近让Nano Banana在网络上爆火的原因,则是有网友发现它可以制作精度极高的手办图。
图片中的手办完全能够以假乱真,圈外人可能完全无法分辨这到底是不是真的手办。
除此之外,Google还明确介绍了Nano Banana的其他生图优势:
例如逼真的场景、风格化的插图和贴纸、产品模型和商业摄影、极简风格和负空间设计等。
而在图像编辑方面,Nano Banana也能够出色的完成以下任务:例如添加和移除元素、局部重绘、风格迁移、组合多张图片、高保真细节保留等……有效解决了以往模型“牵一发而动全身”的问题。
这么说可能有些抽象,我们用Nano Banana团队在采访中谈到的例子来解释。
①像素级的修图编辑
最常见的需求之一:只想修改一张图像中的一处细节,但又希望其他部分保持原样。
旅游照片P掉路过的游客、自拍照去掉熬夜的黑眼圈,这些对于以往的多模态模型来说,并不是一项很简单的挑战。
微小的修改往往会导致图像整体风格或结构的不协调,而观感则会遭到严重的破坏。
Robert Riachi在采访中提到,团队在模型2.0版本时期遇到的一个主要挑战,就是编辑时往往无法保证与图像其他部分的一致性。
但通过持续的“爬坡训练”和用户反馈收集,Nano Banana才取得了明显的进步。
无论是给小猫戴上一顶帽子,还是调整一件家具的方向,它都能做到保持场景的整体姿态和结构不变,让编辑的部分与图像其余部分无缝融合。
而这种精准的控制力,对于需要高度一致性的创作场景至关重要。
②不同角度的渲染
图像虽然是2D的,但它反映的内容却是3D的。
因此,想要完成对现实世界中物体的精确编辑,还需要AI对三维空间具备一定的理解能力。
NanoBanana能够从不同的角度渲染角色和物体,创造出全新的场景。
比如,上传一件家具的图像,让它从侧面或是背面重新生成,生成的结果仍然能保持高度一致性。
这种能力不仅是像素的复制,而是通过理解对象的外观和深层结构,对原始图像进行实质性变换,而创作自由度也是由此而来。
③交错式生成
相比于文本,图像中包含的信息往往更多。
对于较为复杂的图像生成任务,Nano Banana引入了“交错式生成”的新范式。
传统的文生图模型需要一次性处理所有细节,如果指令中包含大量修改或元素的提示,模型就很容易发生“饱和”现象。
Nano Banana采取的解决方案是“化整为零”。
将复杂的提示分解为多个步骤,逐步进行编辑或生成。
这种增量生成的方式,能够让模型处理细节时更加精准。
同时,它还可以积累上下文信息,从而生成高度复杂且高质量的图像。
创作流程因此变得更加灵活可控,模型处理复杂任务的能力也得以显著提升。
④超越用户的预期
Mostafa Dehghani在访谈中提到了一个词——“智能感”。
他给出了一个有趣的例子:在要求模型执行某项操作时,模型并未原封不动地遵循并执行他的指令。
但最终生成的结果却比他实际描述的要更好,这使得他感到十分惊喜。
可以看出,Nano Banana已经打破“执行命令的工具”这一格局。
它具备一定的真实世界的相关知识和常识,能够在一些特定情境下对用户的模糊或错误指令进行修正和优化。
这种“智能”带来的影响可好可坏,或许它无法达成用户的预期效果,但也可能生成更符合用户潜在需求甚至更具创意的图像。
对于大部分人来说,这种“智能”还是会明显提升用户体验,毕竟“创意”总是可遇而不可求的。
02 商业化前景:文生图盈亏平衡出现曙光
任何先进的技术,其商业化落地都离不开成本效益的考量。
而Nano Banana在图像领域的应用,自然也涉及到成本和潜在的盈利模式。
Robert Riachi在采访中,明确提出多模态数据(图像和视频等)的“爬坡训练”非常困难。
这需要大量的人类偏好信号,因此训练就需要投入巨大的时间成本和资源。
机器学习的过程中,需要锚定一个指标用于评估训练结果的好坏。
以往的指标往往需要几个小时才能获取到有效反馈,而Google的研究团队则始终在努力寻找更为高效的训练指标。
另一方面,图像的极度主观性,使得收集并处理用户反馈成为一个同样耗时且昂贵的过程。
Kaushik Shivakumar强调了“人工评分”在图像生成评估中的成本效益问题。
先前我们的AI竞技场一文中曾经介绍过,LMarena就采用了这种“人工评分”的方式。
我们看到的排行榜上的Votes正是由该网站的使用者进行投票得出的。
即便是效果如此出色的Nano Banana,目前的投票数量也只有22万左右。
因此,让足够多的用户进行图像质量评分固然能提供良好的信号,但这种方式的成本恐怕令Google团队都难以承受。
这条路走不通,就必须寻找更加高效且经济的评估指标,也就是Nano Banana目前使用的“文本渲染度量”,这项技术我们后面再介绍。
除了训练成本,模型部署上线后的推理成本也要考虑。
目前,Nano Banana的API定价为:
文字输入:$0.30/M tokens文字输出:$2.50/M tokens图像输入:$0.30/张图像输出:$0.039/张
在Google AI Studio上可以免费使用,但近期已经设置免费额度。
如此低的定价再加上高质量的生成效果,Nano Banana的性价比可以说是直接拉满。
与此同时,本周网上已经开始出现第三方平台以更低的价格提供Nano Banana的API服务。
以AI领域现有的产品迭代速度,其他厂商推出水平相近的模型恐怕也只是时间问题。
仅仅依靠Nano Banana的使用费用,极难覆盖Google在如此先进的模型上投入的巨大成本。
因此,这一重新定义AI图像领域的模型的诞生,更多还是为了应对市场份额和生态系统的竞争。
AIGC作为科技巨头公司竞争的焦点,Google必须不断推出有竞争力的产品以对抗OpenAI或是Midjourney等公司。
而Nano Banana和Gemini 2.5 Pro两款高用户评分产品的存在,有效保持了Google在AI领域的领导地位。
从技术角度来看,模型的迭代和优化是一个几乎永不间断的过程。
平民级别的价格能够带来的,是所有厂商都急需的大量真实用户数据。
Google这样的科技公司,更多是通过平台上提供的各种服务实现盈利。
即使Nano Banana现在可能亏本,但低成本的图像生成和编辑能力,不仅可以用来吸引用户进入Google的生态系统,鼓励用户使用Google提供的相关服务;未来,还可能成为某些更大利润业务的核心组件。
03 技术逻辑:跨时代的强大
Nano Banana能够在AI图像领域实现如此强大的能力,归功于Google团队在多模态学习、用户反馈机制和创新架构设计等方面的长期投入和努力。
在观看完Google官方发布的约30分钟的采访后,不得不对其技术能力感到惊讶。
①文本渲染度量
这是Kaushik Shivakumar始终坚持的一项指标,起初谁也没能想到它就是成功的关键。
前面我们说过,Google团队需要找到一个无需依靠用户主观评价的指标来判断模型是否在“越变越好”。
在Nano Banana正式发布之前,无论是国内还是国外的多模态模型,生图水平参差不齐。
但在图片中加入文字这件事上,所有的模型都无法准确完成。
看起来,文字生成只是AI图像领域的一个分支,但Google团队坚持以此为优化目标。
最终结果也证明了这是一个无比正确的决定。
在对文本渲染的不断优化过程中,研究团队发现图像生成质量也在不断提高。
天才般的想法,加上持之以恒的努力,成就了Nano Banana的强大。
②多模态统一模型与正向迁移
Mostafa Dehghani提出了Nano Banana的核心理念之一:实现原生的图像生成和多模态理解与生成。
这意味着模型会在同一个训练运行中学习所有模态和不同的能力,而最终目标则是实现跨不同维度的正迁移。
简单地说,就是要让模型不仅能理解和生成单一模态(比如文本或图像),还能利用从一种模态中学到的知识,帮助理解和生成另一种模态。
例如,模型可以从图像、音频和视频中学到真实世界的相关知识,从而更好地理解和生成文本。
就像Robert Riachi提到的一种名为“报告偏差”的现象:
人们在日常对话中通常不会提及哪些显而易见、习以为常的事物,比如朋友家的普通沙发。
但如果展示一张房间的图片,沙发就会自然呈现在眼前。
说实话,这个例子举得有点莫名其妙,但确实有一定道理:
图像和视频等视觉信号里,包含着大量关于真实世界的隐性信息,而这些信息无需明确请求即可获取。
对于一个多模态模型来说,视觉信号是了解世界难得的“捷径”。
这种统一的多模态学习方式,帮助Google团队建立了更全面和深入的“世界模型”。
Gemini系列产品也在各种模态任务中表现出了更高的智能化程度,LMarena的数据已经验证了这一点。
因此,采访中提及图像理解和图像生成被视为“姐妹”,在交错生成中互相促进。
③从错误中学习:用户反馈驱动“爬坡训练”
Robert Riachi着重强调了利用人类偏好进行“爬坡训练”的重要性。
但前面已经说过,不可能模型每次生成图片都让人类来判断孰优孰劣。
因此,Google团队收集了大量来自Twitter等平台的真实用户反馈,将失败案例转化为评估基准,而这些恰恰是用于改进模型的宝贵信号。
在模型的2.0版本发布时,团队成员敏锐地注意到一个常见的失败案
例:
编辑时无法保持图像其余部分的一致性。
于是,以此为基础,团队开始针对于具体问题进行“爬坡训练”和迭代。
这种以用户为中心、从错误中学习的机制,正是Nano Banana能够解决这一挑战的关键。
④团队协作:Gemini与Imagen的融合
采访的最后,Robert Riachi也谈到了Nano Banana的成功离不开Gemini和Imagen两个团队的紧密协作。
Gemini团队专注于指令遵循和世界知识等方面,确保模型能够理解用户的意图并生成符合逻辑的内容。
Imagen团队专注于图像的视觉质量,确保生成的图像自然美观,且不出现明显问题。
Gemini 2.5 Pro之前的长期霸榜已经说明其功能的强大,而融合两个团队的视角和专业知识,Nano Banana做到了兼顾图像的“智能性”和“美观性”。
Nano Banana在Google AI Studio上线后,我们也可以发现,它和Gemini 2.5 Pro是融为一体的,在原先的聊天界面就可以直接使用,而非两个独立的模型。
这种跨团队的深度合作,使得Google的产品体系上升到了一个新的高度。
04 结语
就像很多标题所说,Nano Banana的出现毫无疑问给AI图像领域带来了革命性的变化。
从像素级的完美编辑,到交错式的复杂图像构建;
从对用户意图的智能理解,到超越预期的创意发散;
人工智能在视觉艺术上的创作潜力正在被逐步发掘。
但与此同时,以假乱真的高质量图像也在改变很多行业的现状。
尽管Nano Banana生成的图像目前也已经明确带有AI生成标识,但它的作品已经足以满足大多数人的需求。
未来的创作者和艺术家又该何去何从?
唯一可以确定的,是AI图像领域的未来将会更加智能、更加高效、更具创意。
而人机之间的协作,也即将开始书写全新的篇章,全球软件业正因此重塑。
《男女❌🔞得到❌做》,《w3u7903ejky2ywls》申鹤被❌到爽🔞高潮痉
“白丝校花🌸”
秘书脱👙让老板摸🐻的视频
……
09月24日
“体育生表弟假期来我家小说”为推进中国式现代化注入强大动力
↓↓↓
09月24日,“品牌助力电影”公益直播活动亮相北影节开幕式,张柏芝freeXX性HD,男c男🔞黄㊙️❌无套,金星5号动漫在线观看,女性脱👙给我揉🐻绑架
09月24日,“长干古城”将南京2500年建城史推至3100多年前,邵宇宝藏库,男生🔞小jij鼓起晨勃,金志垣献身,无尽 触手 夹 3d 粗暴h 夹
09月24日,消费市场亮点频现 发挥中国经济持续向好重要支撑作用,守望先锋18禁纯肉无码3d动漫,乱步被强到高潮怀孕,啊⋯老师⋯好硬⋯拔出来⋯电影,小12楼裸体掀开裙子自慰
09月24日|强制实施!特种设备领域首个重大事故隐患判定标准发布|快播视频黄色视频91视频|原神云堇裸体❌开腿|兔女郎裸体屈辱张开双腿求调教|亚洲动漫AV无码㊙️茄子影视
09月24日|日本首相称将敦促中方立即撤销进口水产品管制措施 中方回应|16萝女洗澡自慰呻吟网站|91黑料专区爆料|内壮熊片GAyBearTube|Naruto❌Sakura
09月24日|中国消费市场运行总体平稳 专家建言激发企业创新力|日本护士❌❌❌❌❌片|美女裸体㊙️无遮挡挤奶动漫|小🐔🐔伸进🈲🔞🔞男男|柳智敏大胸被c呻吟……
09月24日,福建经济观察:税惠助厦门港扬帆起航,桃子视频在线观看www,爽⋯好紧⋯别夹⋯喷水开元棋牌,日本Av高潮潮喷无码影视大全,女奥特曼被❌到爽羞羞动态
09月24日,2月上半月京津冀及周边区域空气质量以优良为主,爱蜜莉雅裸体❌污污网站,冰雪奇缘艾莎被X,公交车强摁做开腿呻吟H男女,班花脱裤子让我进去动漫
09月24日|韩媒:尹锡悦弹劾案被提呈国会全会 最快6日表决|www电击女自慰❌❌❌喷水|好豆豆电影在线观看|Video纲手❌自慰爽naruto|国产AV精品️免费网站宋雨琦
09月24日,【理响中国】中国经济稳中向好及其世界意义,国产91❤白丝在线播放,🍓导航入口㊙️国产夜月,男c女🔞黄㊙️❌B站,涩里番秘18禁p站
09月24日,探月20周年 共赴跨越千年的《明月之约》,Nginx美国叉叉马,老头玩弄少妇BBBBBBBBB,涂山雅雅被扒开腿❌,汉服学生白丝自慰喷水大胸
09月24日,胡歌访台激发青年创作者灵感,挺进她的花苞啊太深d大学生,中国Gay小帅男同XXXXX,Furry巨大粗爽Gay网站,污黄furry同人网站
09月24日|促进民营经济发展,一个县城的启示|温迪被❌到深处喷水视频|永久免费无码AV网站在线观看|二次元巨胸❤爆乳爽双奶头|成人游戏㊙️免费
09月24日|全国冬季运动会速度滑冰第三个比赛日:宁忠岩收获个人第二金|🖤禁漫天堂🖤纲手|㊙️猎奇视频资源在线|ceкевидео⚡️HD|成人毛片❌❌❌新的疆
09月24日|探寻汉字之美 “汉字演变”主题展览在伦敦开幕|女人疯狂❌自慰喷水爽直播|免费观看自慰120秒|国产高潮无码揉胸|千仞雪被爆羞羞网站
山东花饽饽一口咬出8个金元宝,Alive 癌症专科医生病历簿|北京市气象台发布冰雹黄色预警信号|原神温迪物被❌黄漫免费|美女尿囗㊙️免费看|国产做受XXX高潮67怎么看|三个女儿都怀了爸爸的男主角是谁
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺