猫眼电影
猫眼电影记者 徐福庚 报道w3u7903ejky2ywls
BrowseComp-ZH团队 投稿量子位 | 公众号 QbitAI
你以为大模型已经能轻松“上网冲浪”了?
新基准测试集BrowseComp-ZH直接打脸主流AI。
BrowseComp-ZH是一项由港科大(广州)、北大、浙大、阿里、字节跳动、NIO等机构联合发布的新基准测试集,让20多个中外主流大模型集体“挂科”:
GPT-4o在测试中准确率仅6.2%;多数国产/国际模型准确率跌破10%;即便是目前表现最好的OpenAI DeepResearch,也仅得42.9%
目前,BrowseComp-ZH的全部数据已开源发布。
研究团队直言:
为什么我们需要中文网页能力测试?
如今的大模型越来越擅长“用工具”:能连搜索引擎、能调用插件、能“看网页”。
但众多评估工具都只在英文语境下建立,对中文语境、中文搜索引擎、中文平台生态考虑甚少。
然而,中文互联网信息碎片化严重、搜索入口多样、语言表达复杂。
中文网页世界到底有多难?举几个例子你就明白了:
信息碎片化,分散在百度百科、微博、地方政府网站、视频号等多平台常见的语言结构中含有省略、典故、代指,关键词检索常常“跑偏”搜索引擎本身质量参差,信息“沉底”或“走丢”都是常事
因此,英文测试集“翻译一下”根本不够。
需要从中文语境原生设计,才能真正衡量大模型是否能在中文网页上“看得懂”、“搜得到”、“推得准”。
BrowseComp-ZH是怎么炼成的?
研究团队采用了“逆向设计法”:从一个明确、可验证的事实答案出发(如某个画种、机构、影视剧名),反向构造出多个约束条件的复杂问题,确保以下三点:
百度/Bing/Google三大搜索引擎首屏无法直接命中答案多个主流大模型在检索模式下也无法直接答对经过人工验证,问题结构清晰,且仅有唯一答案
最终,他们构建了289道高难度中文多跳检索题目,覆盖影视、艺术、医学、地理、历史、科技等11大领域
大模型集体“翻车”?DeepResearch勉强破四成,绝大多数连10%都不到
在BrowseComp-ZH的测试下,多款国内外主流大模型集体“翻车”:
尽管这些模型在对话理解、生成表达方面已展现强大实力,但在面对中文互联网的复杂检索任务时,准确率普遍低得惊人:
多数模型准确率低于10%,仅少数能突破20%OpenAI DeepResearch以42.9%位列第一,仍远未“及格”
研究者指出,这一结果说明:模型不仅需要会“查资料”,更要会“多跳推理”与“信息整合”,才能在中文互联网中真正找到答案。
四大发现,揭示中文网页任务的“模型死角”1. 仅靠记忆不行,得真本事
纯靠参数记忆(无搜索)的模型准确率往往低于10%,说明“硬背”不靠谱。
2. 有推理的模型,表现更好
DeepSeek-R1(23.2%)比DeepSeek-V3(8.7%)整整高出14.5%,Claude-3.7也比Claude-3.5提升了12.2%,推理能力成为关键变量。
3. 搜得多 ≠ 搜得准,多轮策略才是王道
具备多轮检索能力的AI搜索产品全面胜出:
DeepResearch:42.9%豆包Deep Search:26.0%Perplexity Research模式:22.6%
相比之下,只检索一次的模型(如Kimi、Yuanbao)准确率低至个位数。
4. 搜索功能“翻车”?接入反而变差
最典型的反例是DeepSeek-R1,开启搜索功能后准确率从23.2%断崖式跌至7.6%
研究指出,模型未能将网页检索信息与已有知识有效融合,反而被误导。
数据集开放!欢迎模型开发者挑战
BrowseComp-ZH的全部数据已开源发布。
研究者希望此基准测试能成为推动LLM在中文信息环境落地的试金石,助力构建真正“会用中文上网”的智能体。
下一步,他们计划扩充样本规模,拓展问答形式,并深入分析模型推理路径与失败案例。
论文地址:https://arxiv.org/abs/2504.19314代码地址:https://github.com/PALIN2018/BrowseComp-ZH
— 完 —
时事1:成人🔞悠久影院
05月14日,二月初二“龙抬头”上海市民喜迎“好彩头”,
10.做好分组。运动会期间,班主任要让每一个学生有事做,鼓励同学参与到这体育盛会,感受体育魅力与活力,融入班集体,融入学校大家庭,成立多个对,竞赛队、啦啦队、卫生志愿者队、撰稿队、安全组、护理组、后勤组等,每组有一组长。
,原神美女被❌吸乳羞羞小说。05月14日,四川:汉巴南铁路南充至巴中段正线铺轨完成,
石子陵大喝,满头黑发狂舞,手中长矛一挥,黄金光滔天,震撼了这片苍穹。他的眼角都崩开了,有血泪淌落,幼儿遭此厄难,让他的心都在滴血,现在谁挡他杀谁!
,动漫❌❌羞羞视频网站,博人传黑土h文,美女脱👙露出🐻吃我的🍌91。时事2:青少年GaYGAYS✅免费
05月14日,山西公布太原致3死中毒事故评估报告:4企业和11人被行政处罚,
“小不点来我们云天宫吧,到时候我们带你去看雪海,喝最香醇的兽奶。”两个小姑娘开口,冲小石昊眨动眼睛。
,美杜莎自己扒开屁股让男人桶,色情乱婬老太婆A片视频下载,情侣内裤纯欲。05月14日,伊朗“姐妹花”用多种语言向世界讲述中国故事,
“好现象,这只独角兽明显是在与孩子们嬉闹,早晚会融入我们石村中。”族长石云峰在旁看得直笑。
,白丝校花🌸自慰出水-游戏,男人把小伸进男人的,❤国产嫩草影院❤新年舞蹈。时事3:偷拍OOOO
05月14日,员工迟到被扣20万?“司规”岂是法外之地,
从罗浮大泽的主人毙命,到雷侯被吊起,再到金色狼皮宝具被毁,又到紫山侯化出的巨人崩溃,全都发生在瞬间。
,被❌到爽🔞高潮痉挛动漫,步非烟在线听mp3,韩国女团开腿露黑毛大尺度。05月14日,山东文旅“上新”又“上心” “花式”宠客解锁流量密码,
这就是青鳞鹰一族的宝术,攻击力惊人,石昊一击,一下子斩掉了一头可怕的凶彪。
,美杜莎3D同人18❌羞羞,乌克兰少女森林1,班长张开腿让我❌了一节课软件。时事4:小🍌🍌里面🍑🍑
05月14日,多地启动精细化预案 确保雨雪寒潮天气市民“菜篮子”供应量足价稳,
“不用写下真实的信息,可以随便写一些,比如说最喜欢的、最爱的。”那个好心的少女提醒。
,极限扩张拳交痛哭尖叫,千仞雪张开双腿被强❌怀孕,朱竹清乳液狂飙。05月14日,候鸟“先遣部队”北归 已抵达兴凯湖畔,
“孩子,拜师很重要,一定要选对传承啊,我们这一脉驾驭雷电,可化身成为雷神,不知你是否愿意加入?”连雷族的那个老仆人都开口了,尽管他们的天才被揍趴下了,但他还是进行劝说。
,男女啪啪高清无遮挡免费直播软件,青柠动漫免费观看全集完整版,免费A漫 - 禁漫天堂JMComic。责编:伍霞
审核:李新义
责编:苏振兰