猫眼电影
猫眼电影记者 成人礼 报道w3u7903ejky2ywls
新智元报道
编辑:元宇
【新智元导读】8月,nano‑banana登顶LMArena文生图像榜单,带动LMArena社区流量暴增10倍,月活用户300万+。nano‑banana在LMArena启动盲测后,短短两周便吸引了超过500万次总投票,并单独赢得了250万+直接投票,创下历史最高参与度。自2023年推出以来,LMArena已成为谷歌、OpenAI等AI大厂扎堆厮杀的竞技场。
今年8月,一款名为「纳米香蕉」的神秘AI图像编辑器轻松登顶Image Edit Arena榜首,直接把LMArena8月份的平台流量拉爆:
流量暴增10倍,月活300万+。
该模型自在LMArena启动盲测以来,短短两周便吸引了超过500万次总投票,并单独赢得了250万+直接投票,创下历史最高参与度。
nano‑banana的神秘身份,也在LMArena社区引发广泛猜测。
在谷歌认领「纳米香蕉」,将其正式定名为Gemini 2.5 Flash Image之前,已不少网友猜到谷歌是Nano Banana的真正主人。
还有网友贴出了在LMArena上使用正版「纳米香蕉」的方法,该方法不仅免费,而且不需要登录。
不仅能让用户「近距离」接触各种最新模型,LMArena还为大模型比拼,提供了一个真实的「罗马竞技场」,它让谷歌、OpenAI等公司的最新模型,在这里真刀真枪对决,接受成千上万用户的检阅。
用户的投票和反馈,决定了这些大模型的排名,也为大模型厂商迭代模型,提供了真实的用例数据,使他们能够更加有的放矢地改进模型。
nano‑banana爆红,让LMArena流量狂涨10倍,据LMArena首席技术官Wei-Lin Chiang证实,该站月活跃用户已超过300万。
无论谷歌,还是LMArena都成为这场流量盛宴中的最大赢家。
从Chatbot Arena到LMArena
LMArena联合创始人Wei-Lin Chiang和Anastasios Angelopoulos
LMArena前身叫Chatbot Arena,最初起源于2023年伯克利的一项研究项目,后来更名为LMArena。
Chatbot Arena像一个用户社区评测中心,它改变了通过学科测试来评测AI技术的传统方式,将评价权交给了社区用户,并且采用匿名、众包的成对比较,来评估大模型。
用户还可以选择模型进行自我测试。
ChatGPT、Llama 1等大模型的发布,为Chatbot Arena的出现提供了一个契机。
因为,当时人们还没有一个评测大模型的有效方法,于是Chiang就与伯克利研究人员Anastasios Angelopoulos,以及Ion Stoica共同创办了Chatbot Arena,也就是后来的LMArena。
他们的想法,是做一个以社区为中心的公开的、基于网络的平台,邀请所有人来参与评测。
很快,Chatbot Arena就引起了许多关注,成千上万的人前来投票,他们就利用这些用户投票数据,整理出了第一版排行榜。
最初上榜的,多是一些开源模型,唯一商用模型只有Claude和GPT。
随着更多模型的不断加入,Chatbot Arena的关注度也越来越高。各AI大厂纷纷请求将自己产品排名,并试图登上这个排行榜的榜首。
Chatbot Arena的走红,也让众多科技公司将之视为AI技术的风向标,他们像华尔街交易员盯盘一样,密切关注着Chatbot Arena榜单的变化。
这一切都让Meta AI产品管理总监Joseph Spisak感到十分惊讶,他惊叹于几个学生竟能产生如此重大的影响力。
Chiang希望LMArena能够成为一个对所有人都开放可及的平台,希望更多的用户来测试这些模型,表达他们的看法和偏好,以此帮助社区以及模型提供方,能够更好地基于这些真实用例来评估AI。
正如Chiang所言,在LMArena社区中,最受欢迎、增长最快的模型,往往来自于真实场景中的用例。「纳米香蕉」就是最成功的例子之一。
匿名登场和盲测机制,让nano-banana在LMArena自然爆红,当时普通用户无法手动挑选nano-banana,只有在 Battle里随机遇到它,社区里大量帖子讨论「刷很多局才等到香蕉」的体验。
目前,Gemini 2.5 Flash Image成为LMArena的「双料冠军」,获得了Image Edit Arena、Text-to-Image两个榜单的第一名。
从LMArena排名上,还可以看出各个领域表现最佳的模型。
比如,在编码领域,Claude排名最佳。在创意领域,Gemini位居前列。
也许是Meta内部AI团队调整的缘故,Chiang并没有听到太多Llama 4的消息。但他认为Meta正在构建的「全模型」,也许代表着未来行业的一大趋势。
大模型厂商为何钟情「屠榜」?
OpenAI、谷歌、Anthorpic等大模型厂商,为什么都喜欢将它们的模型放到LMArena等排行榜上?
是为了建立品牌曝光度,还是获得用户反馈来改进他们的模型?
显然,曝光与背书,是一个最直观的短期效应。
LMArena是业内关注度最高的公开榜之一,累计投票已达数百万次。而且科技媒体也喜欢频繁引用LMArena的数据,这些都可以为大模型品牌带来显著的口碑与流量红利。
其次,是更贴近「真实使用」的用户反馈。
LMArena采用匿名、随机配对的投票方式,并用Elo计分,这样做减少了「品牌光环」「位置偏置」等主观影响,能真实反映用户对模型回答质量的评价。
Elo系统最初用于国际象棋计分,也是LMArena排行榜背后的核心机制。在该规则下,每个选手(或模型)都有一个实力分数(Elo 分),每场对战后,会根据结果和预期,更新双方的Elo分。
这让每次用户投票都成为一场对战,模型Elo分经过成千上万次对战收敛,排名就可以更真实地反映用户偏好。
此外,LMArena提供了一个跨厂商、跨开源/闭源的同台竞技舞台,这天然就会带来更高流量的曝光,也为用户提供了更丰富的选型信息。
正如Chiang所言,希望将LMArena打造成一个人人都能参与、都能表达自己观点的开放空间。
这里的一切都是社区机制来驱动,鼓励大家提问和投票,表达自己对不同模型的评价。
对于大模型厂商来说,LMArena提供了一个很好的「照镜子」的机会。
大模型厂商可以看清自己在所在领域的排行情况,以及获得LMArena根据社区反馈提供的报告和分析,详细评估自己模型的表现,对症下药提升模型能力。
需要新的LLM基准测试吗?
当所有模型,都非常接近基准测试了,还需要新的基准测试吗?
Chiang认为这一点是非常必要的。但是其中一个核心原则,是这些基准要扎根于真实世界用例。
比如,能够超越传统的基准测试,转向更贴近真实用户场景的基准测试,尤其是善于使用AI工具完成任务的专业人士所驱动的基准。
以LMArena最新推出的WebDev基准测试为例,用户可以用提示词让一个模型搭建网站。这种基准测试,可以更好地将AI技术与真实世界用例紧密相连,使其更快在实际应用场景落地。
针对MIT关于「大多数投资AI的公司都没有看到投资回报」的报告,Chiang认为这是一项很有意思的研究。
他认为该研究反映了「将AI与真实世界用例紧密相连尤为重要」,这也正是他要将LMArena平台扩展到更多行业的原因。
希望通过更多扎根于真实用例的基准测试,去弥合技术与实用场景的鸿沟,并为之提供可衡量的标准。
Chiang表示,LMArena的目标是利用平台数据来理解模型的局限性,保持数据研究流程的透明,并将数据发布出来,以此推动社区平台的持续建设。
对于大模型厂商和「用户观众」来说,这里是一个永不落幕的竞技场。
参考资料:
https://www.businessinsider.com/lmarena-cto-compare-ai-models-google-nano-banana-2025-9
时事1:荷兰世姓交大比赛视频
09月08日,山东东营黄河口候鸟栖息地:万羽翩翩入画来,
三是把好选民登记关。针对我镇村民流动性大的现状,为确保村民的选举权和被选举权,我们要求各村村民选举委员会在充分考虑户籍归属、民事能力等情况的前提下,认真做好选民的资格审核工作,严格做到不重登、不错登、不漏登,并在正式选举日前20天公布选民名单。
,小舞被唐三扒开腿狂❌免费。09月08日,新疆白哈巴景区:绝美冬景宛如童话世界,
为了共同把我们的培训班办好,使大家在有限的时间内掌握较为丰富的内容,真正学有所获,回去以后学有所用。我希望各位授课老师要吃透两头,既能吃透上情,深刻领会本次培训的中心思想,又能吃透下情,紧密结合东城农村经济和社会发展的实际,精心备课,认真讲课,力争把每节课都讲得十分精彩,讲得不同凡响。与此同时,我向同志们提几点具体要求:
,雷电将军❌自慰喷水本子,酋特菈莉的裸体㊙️网站,亚洲🔞👈成人?√az在线禁。时事2:免费无遮挡🔞视频网站色大师
09月08日,覆盖1.8亿人 长护险如何破解“一人失能、全家失衡”难题,
大家好!我们今天组织召全体毕业备考誓师大会,就是要求在座的全体同学要重新确立目标,拿出新的学习精神,鼓起我们的勇气,力争考出好成绩。
,灯草和尚和温碧霞的背景故事,里番※囗工资源库,原神女多触手怪❌吸乳视频。09月08日,海外侨胞、归侨侨眷请查收!云南省侨办给您拜年了,
小不点迎着朝霞,站在一块巨石上,湍急的水流从旁边流过,白茫茫,犹若雷鸣,震的这片乱石山都在颤动。他的肉身有一种光泽,健康而透亮,有着用不完的力气,十万斤极境被他打破,打下了最坚实的基础。
,🔞🍌进🍑里❌❌❌玩漫画,国产裸体老师无遮挡免费,美女被❌到高潮喷出白浆图片小说。时事3:XXNX15👙日本视频。
09月08日,山东半岛“慢节奏”滨海度假游受热捧 游客“慢享”赶海垂钓乐趣,
回首20xx,除了留恋,我们还有太多的感动!展望20xx,除了期待,我们还有更多的憧憬。相约20xx,让我们继续携手前行,共同描绘婚庆事业的美好蓝图。
,美味伴娘之3免费观看,yaoi❤♂R18redmanga,XNXXX👙👙。09月08日,《海王2》票房不足5亿 超级英雄电影没人看了吗?,
“呀,原来是它的花蕊,竟然跟飞剑一模一样。”小不点惊诧,那飞剑只是一根蕊,其形若剑,飞回去后插入花瓣间,流动炫目的光彩,而后整朵花又闭合了。
,免费播放男人添女人下边抢沙发,湿点未增减板,邪恶309期动态gifXXOO。时事4:二次元美女❌开腿羞羞动漫
09月08日,航天专家:中国正在研发多款可重复使用火箭,
小不点人还小,虽然在这个年龄段相对来说已经算是神力惊人,但是绝对的力量却比不上狈风,不过有骨文的神秘力量相辅,却也不惧。
,91丨PORNY丨蝌蚪熟,草莓18,老师扒开让我❌了一夜网站。09月08日,申城迎来“五一”假期返程高峰,
静心:静下心来认真思考。
,性乂X❌XFree❌乂,成人免费精品软件,免费被❌黄漫游戏二次元,二维。责编:张洪彬
审核:吉晓
责编:严修鸿