猫眼电影
猫眼电影记者 丽贝卡·豪尔 报道w3u7903ejky2ywls
BrowseComp-ZH团队 投稿量子位 | 公众号 QbitAI
你以为大模型已经能轻松“上网冲浪”了?
新基准测试集BrowseComp-ZH直接打脸主流AI。
BrowseComp-ZH是一项由港科大(广州)、北大、浙大、阿里、字节跳动、NIO等机构联合发布的新基准测试集,让20多个中外主流大模型集体“挂科”:
GPT-4o在测试中准确率仅6.2%;多数国产/国际模型准确率跌破10%;即便是目前表现最好的OpenAI DeepResearch,也仅得42.9%
目前,BrowseComp-ZH的全部数据已开源发布。
研究团队直言:
为什么我们需要中文网页能力测试?
如今的大模型越来越擅长“用工具”:能连搜索引擎、能调用插件、能“看网页”。
但众多评估工具都只在英文语境下建立,对中文语境、中文搜索引擎、中文平台生态考虑甚少。
然而,中文互联网信息碎片化严重、搜索入口多样、语言表达复杂。
中文网页世界到底有多难?举几个例子你就明白了:
信息碎片化,分散在百度百科、微博、地方政府网站、视频号等多平台常见的语言结构中含有省略、典故、代指,关键词检索常常“跑偏”搜索引擎本身质量参差,信息“沉底”或“走丢”都是常事
因此,英文测试集“翻译一下”根本不够。
需要从中文语境原生设计,才能真正衡量大模型是否能在中文网页上“看得懂”、“搜得到”、“推得准”。
BrowseComp-ZH是怎么炼成的?
研究团队采用了“逆向设计法”:从一个明确、可验证的事实答案出发(如某个画种、机构、影视剧名),反向构造出多个约束条件的复杂问题,确保以下三点:
百度/Bing/Google三大搜索引擎首屏无法直接命中答案多个主流大模型在检索模式下也无法直接答对经过人工验证,问题结构清晰,且仅有唯一答案
最终,他们构建了289道高难度中文多跳检索题目,覆盖影视、艺术、医学、地理、历史、科技等11大领域
大模型集体“翻车”?DeepResearch勉强破四成,绝大多数连10%都不到
在BrowseComp-ZH的测试下,多款国内外主流大模型集体“翻车”:
尽管这些模型在对话理解、生成表达方面已展现强大实力,但在面对中文互联网的复杂检索任务时,准确率普遍低得惊人:
多数模型准确率低于10%,仅少数能突破20%OpenAI DeepResearch以42.9%位列第一,仍远未“及格”
研究者指出,这一结果说明:模型不仅需要会“查资料”,更要会“多跳推理”与“信息整合”,才能在中文互联网中真正找到答案。
四大发现,揭示中文网页任务的“模型死角”1. 仅靠记忆不行,得真本事
纯靠参数记忆(无搜索)的模型准确率往往低于10%,说明“硬背”不靠谱。
2. 有推理的模型,表现更好
DeepSeek-R1(23.2%)比DeepSeek-V3(8.7%)整整高出14.5%,Claude-3.7也比Claude-3.5提升了12.2%,推理能力成为关键变量。
3. 搜得多 ≠ 搜得准,多轮策略才是王道
具备多轮检索能力的AI搜索产品全面胜出:
DeepResearch:42.9%豆包Deep Search:26.0%Perplexity Research模式:22.6%
相比之下,只检索一次的模型(如Kimi、Yuanbao)准确率低至个位数。
4. 搜索功能“翻车”?接入反而变差
最典型的反例是DeepSeek-R1,开启搜索功能后准确率从23.2%断崖式跌至7.6%
研究指出,模型未能将网页检索信息与已有知识有效融合,反而被误导。
数据集开放!欢迎模型开发者挑战
BrowseComp-ZH的全部数据已开源发布。
研究者希望此基准测试能成为推动LLM在中文信息环境落地的试金石,助力构建真正“会用中文上网”的智能体。
下一步,他们计划扩充样本规模,拓展问答形式,并深入分析模型推理路径与失败案例。
论文地址:https://arxiv.org/abs/2504.19314代码地址:https://github.com/PALIN2018/BrowseComp-ZH
— 完 —
时事1:91丨九色丨白浆㊙️小青龙
05月11日,春节申遗成功背后,有哪些启示与深意?,
一道神念响起,金色的穿山甲怒了,其头颅发光,张口吐出一个光团,炽盛到难以让人睁开眼睛,诡异而又恐怖,竟发出阵阵龙吟蛟啸声。
,美女的隐私㊙️拉屎视频。05月11日,公务交往、街头搭讪!国家安全部披露境外间谍情报机关惯用伎俩,
专业技术人员是设备大修的骨干,机修厂不能靠矿上给配多少人,要主动的去培养,利用设备大修等机会,多人参与,重点培养,自己形成一套符合实际的行之有效的人才培养计划。
,久久国产亚洲精品md0288,黑人欧美多人交换做爰金平梅,腹肌裤子拉低看到几几。时事2:AV➕无码➕高潮3满十八
05月11日,谎称白宫着火!虚假报警电话引发消防紧急反应,
“闭嘴!”中年人眸光璀璨,如两道闪电划过,瞪了他一眼,道:“山石类祭灵不能动,不然说不定就惹出一尊山神来。”
,小兰被新一❌到爽羞羞视频,张柏芝内裤和阿娇内裤一样吗,90日本XXXXXXXXX72。05月11日,汽车之家《新能源超测》:推动共建以用户需求为导向的评测体系,
“少族长息怒,我们根本无法对抗那头魔柳,去多少人都得死啊,连族长都殒落了。”
,别告诉妈妈链接入口免费,91游戏大厅,动漫美女被❌到爽视频。时事3:帝皇的播种计划
05月11日,《“一带一路”绿色能源合作行动计划(2024-2029)》发布,
祝各位校友身体健康,家庭幸福!
,Pornhub入口在线观看,玩弄小男生的小🐔🐔网站,交换乐园1-45集最新章节列表。05月11日,美军称使用“战斧”导弹袭击胡塞武装雷达设施,
各位朋友们,从我们浑浑沌沌地来到这世间的那一刻起,无一不是上蒙天覆地载,日月照临;下承国家水土,父母养育。所以,我们唯有常思知恩图报,才不枉为万物之灵。身处科学技术突飞猛进的时代,还有人敢说“报国无门”吗?文有师者孜孜不倦传道解惑,武有官兵威加海内戍边卫国,而我们力所能及的便是以我们的勤劳和智慧把瑞特建设的更好,养更多的奶牛,生产更多的健康好奶,来强国人体质,于根本之处解民生之患。在经济发展的同时不忘道德修养,让我们周边人群的物质文明和精神文明在我们的辛勤劳作之中并驾齐驱,这便是我们瑞特公司上报国恩兼下善黎民的经营理念。
,美女跪床❌❌被🌿免费观看,男人用鸡巴对入女生的屁股里动态图自带性感生音,千仞雪被爆羞羞网站。时事4:好大用力深一点黑人
05月11日,每天学习一首古诗词丨2024-3-11 ,
当你们光荣的跨入了中国共青团组织的大门时,你们就充当了先锋,就选择了责任。责任重于泰山,你们是同学的楷模,你们有义务遵守团的章程,遵守《中学生守则》和《中学生日常行为规范》,遵守学校的校规校纪。同学们,让我们把团旗下的宣誓做为指导自己思想、规范自身行为的座右铭,在成长的路上披荆斩棘,锐意进取,把自己培养成一个有教养的中学生,一个有益于社会的好公民吧!
,乖~内裤里也要涂春药男男微博,黄色游戏女主被塞,❤️国产嫩草影院久久久。05月11日,(高质量发展调研行)走进浙江桐庐梅蓉村,
不需细说,这块骨绝对有惊人的来历,一看就不是凡物,像是记载了骨文一道的的无上真义。
,女仆脱了内裤让主人摸屁屁,高跟鞋踩马眼爆浆视频的注意事项,姬小满🌸扒腿爽出白色液体视频。责编:蒙古王
审核:多布杰——
责编:王珏林