威廉希尔WilliamHill·足球(中国)体育官方网站
搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

DeepSeek R1幻觉率降低,用户喊话:想要R2

2025-06-02 02:10:54
来源:

猫眼电影

作者:

保罗·赫勒

手机查看

  猫眼电影记者 高凤仙 报道w3u7903ejky2ywls

2025.05.29

本文字数:1440,阅读时长大约2分钟

导读:报告显示此前 R1模型幻觉率在21%左右。

作者 |第一财经 刘晓洁

在开源平台HuggingFace上发布R1模型的更新后,5月29日晚,DeepSeek终于发布了官方公告介绍这次版本的具体能力迭代细节,其中包括深度思考能力强化、幻觉改善和创意写作更好等。

在测评数据上,官方表示,更新后的R1模型在数学、编程与通用逻辑等多个基准测评中取得了当前国内所有模型中首屈一指的成绩,并且在整体表现上已接近其他国际顶尖模型,如 o3 与 Gemini-2.5-Pro。

值得一提的是,DeepSeek提到,新版DeepSeek R1 针对“幻觉”问题进行了优化。与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了 45%-50% 左右,能够提供更为准确可靠的结果。

所谓幻觉即大模型的“胡说八道”,此前DeepSeek的幻觉率并不低,也被不少用户和开发者所讨论。5月15日,SuperCLUE曾发布最新一轮中文大模型忠实性幻觉测评结果,显示此前的DeepSeek-R1模型幻觉率在21%左右,在测评的国内模型中排名第五。

据SuperCLUE,推理模型的幻觉比非推理模型更显著,在他们的测评中推理模型的平均幻觉率为22.95%,非推理模型的平均幻觉率为13.52%。

除了幻觉方面的改善,官方介绍,新R1模型在复杂推理任务中的表现有了显著提升。例如在 AIME 2025 测试(一个数学基准测试,用于模型在数学推理方面的能力)中,新版模型准确率由旧版的70%提升至87.5%。

此外,更新后的 R1 模型针对议论文、小说、散文等文体进行了进一步优化,能够输出篇幅更长、结构内容更完整的长篇作品,同时呈现出更加贴近人类偏好的写作风格。

在官方发文之前,众多测试表明R1新模型的代码能力有显著提升,在代码测试平台Live CodeBench中,其性能几乎媲美OpenAI重量级的o3-high模型。官方此次公告也提到,在前端代码生成、角色扮演等领域,模型的能力确实均有更新和提升。

在迭代路径上,DeepSeek表示,DeepSeek-R1-0528 仍然使用 2024 年12月所发布的DeepSeek V3 Base模型作为基座,但在后训练过程中投入了更多算力,显著提升了模型的思维深度与推理能力。

本次R1新模型参数为 685B,开源版本上下文长度为 128K(网页端、App 和 API 提供 64K 上下文)。同时,与旧版本的R1保持一致,此次开源模型权重仍然统一采用 MIT License,允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。

有趣的是,在X平台DeepSeek的官方评论区中,讨论的话题全都关于R2模型,“We want R2(我们想要R2模型)”,有用户评论称。业界对DeepSeek下一代的模型期待已久。

基于DeepSeek刚刚发布了更新,有用户猜测,“是否意味着我们暂时不会听到有关R2的消息?”也有用户调侃称,这一模型或许在开发中应该是R2,但是当他们发现在基准测试中没有超越OpenAI的o3 时,DeepSeek将其重新命名为R1的更新。

一向低调的DeepSeek并未对外界的猜测进行任何回应,基于R1是在V3模型的基础上训练的,或许我们会先等到V4模型的更新。无论如何,海内外大模型领域的基座模型大战还在继续,DeepSeek之后,谁会是下一家?

海外网友制作的梗图,对当前大模型领域的密集更新进行调侃

微信编辑| 苏小

 时事1:芙宁娜裸体被❌涩涩的视频

  06月02日,中柬启动“人文交流年” 两国民众期待“双向奔赴”,

  二、统一思想,提高认识,进一步凝聚加快城市建设的共识

,18森🍆🍑❌❌❌🔞。

  06月02日,美国纽约一变压器突发爆炸起火 导致铁路停运 ,

  就在这时,一个小小的身影如灵雀般,迅疾地冲到了最前方,大声斥责道:“你们抢我们赖以生存的食物,还要杀阿叔他们,阿福叔人那么好,那么善良,都差点被射死,你们都是大恶人!”

,大乳老师婬荡呻吟HD电影,🌸✿极品白丝✿🌸白皙mba,黄婷大连工业视频链接。

 时事2:黄色直播间bj

  06月02日,(乡村行·看振兴)江西共青城:乡村环境新升级 开启宜居新篇章,

  一群人都望向美丽女子的胸部上方,那裸露在外的晶莹肌肤,手指印太明显了,还有雪白的颈部也如此。

,XXNX日本52,成人网站❌免费入口免费,云缨用枪x自己乳液狂飙。

  06月02日,河北承德县:秋意染大山 霜叶满阶红,

  “呀,你真的在蜕变呀,老皮又掉了一块。”

,兽人免费cg解锁版下载,男同基漫Gay男男18禁成八人,免费看韩国美女㊙️隐私。

 时事3:斯嘉丽大尺度无删减视频

  06月02日,哇!Chinese Kungfu!中国传统体育项目点燃巴黎街头,  纪委通报称,胡志强搞政治攀附;在干部任用上丧失原则,搞一团和气;严重违反生活纪律,生活奢靡;“四个意识”个个皆无,“六大纪律”项项违反等。,国产乱婬AV麻豆精东视频小说,美女被脱脱内内秘免费网站,穿越星穹铁道婬乱版。

  06月02日,(巴黎奥运)启蒙教练谈冯彬:期待她更闪耀的一掷,

  “林虎、飞蛟你们带着祖器,给我去截杀狈村的那批人,一个都不要放过,全部给我杀个干净!”

,原神芙宁娜裸体❌开腿照片,宝宝⋯腿张大点就不疼了,女同性疯狂做爰。

 时事4:姬小满㊙️黄漫免费视频

  06月02日,被指“文化人抄袭文化人”?董宇辉直播间再上热搜,

  调整之后,结合实际,确立了新的更大的目标,就是确保年年有进位,年年有赶超,三年大发展,五年大跨越,进入全省前60,跨入全省中等县行列。目前的曹县,正处在负重奋进、全力攻坚、跨越赶超的关键时期,曹县中银富登村镇银行的设立,恰逢其时,是推动曹县发展的及时雨,将为民营经济发展、中小企业壮大和农民增收带来了更大活力,将对全县经济的更好更快发展产生巨大推动作用。

,吴敏小白龙mv无删减,91美女㊙️片黄在线观看用鞭子,Gay打男生光屁股网站。

  06月02日,极氪领克整合:手握三大优势储备 剑指百万新能源集团,

  还是我五岁那年。我一个人在房间里玩,无意之间看到了一个打火机,我学着爸爸的样貌使劲按了几下,“咔嚓”一声,没想到竟然被我给点着了,差点烧到我的手,我十分害怕。便把燃烧着的打火机扔进了垃圾桶,没想到垃圾桶也烧起来了。我迅速把爸爸妈妈扯进房间。爸爸妈妈一进门便吓得目瞪口呆,立即拿来了一盆清水,把燃烧的垃圾桶扑灭了。这下我才松了口气,之后爸爸妈妈严肃地批评了我,告诉我:如果不及时扑灭的话,后果将不堪设想。因为,火不断地蔓延,会把整栋楼化为灰烬。并告诫我以后再也不能犯同样的错误了。从那一刻起我就明白了:不是任何东西都能够拿来玩,异常是火这一类危险物品,千万不能随便玩弄。否则,失去的将是宝贵的生命。

,海角乱怆破解,亚洲AV无码久久久久久精品酒店,阴脣上穿环的母狗。

责编:邓蓉

审核:刘善泽

责编:严翠芳

相关推荐 换一换