威廉希尔WilliamHill·足球(中国)体育官方网站
搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

DeepSeek R1幻觉率降低,用户喊话:想要R2

2025-06-02 21:02:56
来源:

猫眼电影

作者:

陈亚辉

手机查看

  猫眼电影记者 旺堆 报道w3u7903ejky2ywls

2025.05.29

本文字数:1440,阅读时长大约2分钟

导读:报告显示此前 R1模型幻觉率在21%左右。

作者 |第一财经 刘晓洁

在开源平台HuggingFace上发布R1模型的更新后,5月29日晚,DeepSeek终于发布了官方公告介绍这次版本的具体能力迭代细节,其中包括深度思考能力强化、幻觉改善和创意写作更好等。

在测评数据上,官方表示,更新后的R1模型在数学、编程与通用逻辑等多个基准测评中取得了当前国内所有模型中首屈一指的成绩,并且在整体表现上已接近其他国际顶尖模型,如 o3 与 Gemini-2.5-Pro。

值得一提的是,DeepSeek提到,新版DeepSeek R1 针对“幻觉”问题进行了优化。与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了 45%-50% 左右,能够提供更为准确可靠的结果。

所谓幻觉即大模型的“胡说八道”,此前DeepSeek的幻觉率并不低,也被不少用户和开发者所讨论。5月15日,SuperCLUE曾发布最新一轮中文大模型忠实性幻觉测评结果,显示此前的DeepSeek-R1模型幻觉率在21%左右,在测评的国内模型中排名第五。

据SuperCLUE,推理模型的幻觉比非推理模型更显著,在他们的测评中推理模型的平均幻觉率为22.95%,非推理模型的平均幻觉率为13.52%。

除了幻觉方面的改善,官方介绍,新R1模型在复杂推理任务中的表现有了显著提升。例如在 AIME 2025 测试(一个数学基准测试,用于模型在数学推理方面的能力)中,新版模型准确率由旧版的70%提升至87.5%。

此外,更新后的 R1 模型针对议论文、小说、散文等文体进行了进一步优化,能够输出篇幅更长、结构内容更完整的长篇作品,同时呈现出更加贴近人类偏好的写作风格。

在官方发文之前,众多测试表明R1新模型的代码能力有显著提升,在代码测试平台Live CodeBench中,其性能几乎媲美OpenAI重量级的o3-high模型。官方此次公告也提到,在前端代码生成、角色扮演等领域,模型的能力确实均有更新和提升。

在迭代路径上,DeepSeek表示,DeepSeek-R1-0528 仍然使用 2024 年12月所发布的DeepSeek V3 Base模型作为基座,但在后训练过程中投入了更多算力,显著提升了模型的思维深度与推理能力。

本次R1新模型参数为 685B,开源版本上下文长度为 128K(网页端、App 和 API 提供 64K 上下文)。同时,与旧版本的R1保持一致,此次开源模型权重仍然统一采用 MIT License,允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。

有趣的是,在X平台DeepSeek的官方评论区中,讨论的话题全都关于R2模型,“We want R2(我们想要R2模型)”,有用户评论称。业界对DeepSeek下一代的模型期待已久。

基于DeepSeek刚刚发布了更新,有用户猜测,“是否意味着我们暂时不会听到有关R2的消息?”也有用户调侃称,这一模型或许在开发中应该是R2,但是当他们发现在基准测试中没有超越OpenAI的o3 时,DeepSeek将其重新命名为R1的更新。

一向低调的DeepSeek并未对外界的猜测进行任何回应,基于R1是在V3模型的基础上训练的,或许我们会先等到V4模型的更新。无论如何,海内外大模型领域的基座模型大战还在继续,DeepSeek之后,谁会是下一家?

海外网友制作的梗图,对当前大模型领域的密集更新进行调侃

微信编辑| 苏小

 时事1:亚洲熟妇无码Av无码

  06月02日,龙“马”精神 一路领“鲜” 青岛啤酒激情登场2024青岛马拉松,

  “咦,有人破纪录了!”

,浣肠と排泄の羞耻~视频。

  06月02日,黄山机场恢复香港至黄山直航正班航线,

  他们刚出来几百里而已,就遇上了这样的大块头,慢一步的话就会被生吞活剥,死无葬身之地。

,69免费看片视频,黑客家庭破解农村,成人做爰黄✌片视频动漫入口。

 时事2:吾色

  06月02日,王鹏:勇攀科研高峰 把青春融入强军事业,

  第三,搞好县委换届,是巩固先进性教育成果的重要举措。20xx年底以来,我们分三批在全县开展了保持共产先进性教育活动,取得了很大成效,特别是在去年抗洪救灾中,全县广大充分发挥先锋模范作用,体现了先进性,受到了全县人民的充分肯定。但是必须清醒的看到,我们巩固和扩大先进性教育成果的任务还很重,这次县委换届既是对先进性教育活动成果的实际检验,也是对巩固和扩大先进性教育活动成果的有力推动。我们通过做好换届考察和思想政治工作,有利于促进各项整改措施的落实和一些突出问题的解决;通过搞好领导班子的配备,有利于进一步提高领导班子和领导干部保持先进性的能力。

,胡桃❌爆爽自慰喷水,雏田本子网站,穿越星穹铁道婬乱版。

  06月02日,深圳甘坑古镇将迎灯笼节,

  “幽雨小姐出现了吗?”雨蒙站在园林中的一座石拱桥上,望着水中的一群紫鳞鱼,问旁边的官家。藉巡视之便,他亦要向补天阁的使者求取一块符牌,交给族中一位了不起的天才。

,偷拍美女隐私㊙️视频在线观看,刚发育的女同学裸体,3D动漫同人18❌动漫网站。

 时事3:黄金调教一视频丨ⅤK

  06月02日,祁连山国家公园野生动物救护繁育站成功放归2只猛禽,

  二是要在攻坚克难上实现新突破,让干部更加“敢担当”。 高铁新区建设是一项宏伟工程,充满了艰辛与挑战。然而 惟其艰难,更显勇毅;惟其磨砺,始得玉成。在座的各位都是东沙河发展的中坚力量,能否肩负起这一历史使命,关系到东沙河的全局和未来,关系到东沙河百姓的福祉。责重如山,责无旁贷! 一要有担当的精神。 习说过:“看一个领导干部,很重要的是看有没有责任感,有没有担当精神。”要增强担当意识,提升担当能力,落实担当责任,把担当精神渗入到骨髓里,熔铸到建设高铁新区的伟大实践中。 二是要有担当的勇气。 “为官避事平生耻”。高铁新区建设面临许多深层次矛盾和问题,都是难啃的“硬骨头”。面对困难,惧怕困难是最大的困难,回避问题是最大的问题。解决困难和矛盾,需要有亮剑精神、有攻坚意志,要坚定必胜信心,不畏艰难困苦,敢于攻坚克难,越是艰险越向前。 三是要有担当的本领。 没有过硬的本领,再美好的蓝图也无法实现。能否既要想干事,又要干成事、不出事,是考量一名干部基本标准。面对难题,要掌握破解难题的方法、提高驾驭复杂局面的能力。

,国产成年妇视频,爽⋯好大⋯快⋯深点自慰大学,嘘别告诉妈妈mama。

  06月02日,冰雪春天|热雪沸腾 渔猎冰湖,

  一只幼鸟出现,身体上不是青色鳞片,而是紫鳞,流光溢霞,如一团火焰在燃烧,比它的两个兄弟要神异许多倍。

,🌸✿极品白丝✿🌸白皙,浪货今天就把你🌿到服为止作,亚洲A片人獸交XXOO。

 时事4:王雨纯脱得连奶罩都不剩

  06月02日,东航江苏公司启动空乘招聘考试 “00后”应聘者接近4000人,

  大战越发的激烈了,四头可不想象的至强存在,舍生忘死,激烈争锋,有一种可怕气息冲向八荒,惊慑的万灵都在颤栗。

,温迪脚法ちゃんがをかいます,安妮海瑟薇床戏,掀开老师的裙子❌狂揉❌视频。

  06月02日,台青忆“鲁味”:盼两岸同胞“同吃一道菜”,

  “哈哈……”最后,人们只能大笑。即便这里是初始地,并非高层次的洞天福地,但也不是随便就能破坏掉的。

,白咲花CODM美化包,小舞3D同人18❌AV动漫,海贼王大和被❌18禁视频。

责编:白玮

审核:高洪彦

责编:杨善好

相关推荐 换一换