威廉希尔WilliamHill·足球(中国)体育官方网站
搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

不只是“小升级”!DeepSeek-R1新版获海外盛赞,每经记者亲测挑战三大编程任务

2025-06-03 23:13:37
来源:

猫眼电影

作者:

高荣林

手机查看

  猫眼电影记者 余世明 报道w3u7903ejky2ywls

5月29日凌晨,DeepSeek-R1-0528正式在Hugging Face平台开源。此前一日(5月28日),DeepSeek官方宣布DeepSeek-R1模型已完成小版本试升级,用户可通过官方网页、App、小程序进行测试(打开深度思考),API接口和使用方式保持不变。

在此次更新中,模型代码能力的提升最为显著。知名代码测试平台LiveCodeBench显示,更新后的R1性能可以媲美OpenAI o3模型的高版本。

除代码能力外,R1新版本模型的文本理解与推理能力亦实现跨越式升级。其上下文长度拓展至128k,长文本提取的准确率也有显著提升。

《每日经济新闻》记者(以下简称“每经记者”)通过俄罗斯方块游戏开发、太阳系模拟与交互展示,以及设计英伟达最新财报网页这三项任务对R1新版本进行了实测,发现DeepSeek-R1-0528的编程能力确实强大,对物理世界的理解以及文本的提取都相当准确。

知名AI评论人Haider在社交媒体上评价称,这是开源的一大胜利。

瑞士IT咨询公司CTOL Digital Solutions首席执行官Max Zhang则表示,在这一“小”进步之后,我们确实可以期待更大突破(DeepSeek-R2)的到来。

图片来源:Hugging Face

“小升级”实现“大跨越”:升级后的R1性能媲美o3模型高版本

DeepSeek延续了其一贯的低调风格,此次升级率先在微信群进行官宣,并轻描淡写地将其定义为“小版本升级”。

然而,众多开发者实测后发现,此次的“小”升级,并不小。升级后的DeepSeek-R1,模型能力可以说实现了跨越式提升。

图片来源:DeepSeek官方微信群截图

编码能力方面,代码测试平台LiveCodeBench显示,更新后的DeepSeek-R1性能接近OpenAI在4月中旬发布的o4-mini和o3模型高版本。

据测试者反馈,DeepSeek-R1-0528能够一次性生成超千行无Bug代码,且在HTML/CSS/JS动态交互实现(如天气卡片动画、数据可视化)中更加精准。

图片来源:代码测试平台LiveCodeBench

除代码能力外,新版本模型的文本理解与推理能力亦实现跨越式升级。其上下文长度拓展至128k,长文本提取的准确率也有显著提升。

在Extended NYT Connections基准测试中,相比于前一代DeepSeek-R1,最新的0528版本的提升非常明显,得分从38.6%大幅升至49.8%。

图片来源:X

目前,ChatBot Arena也已经“上架”了最新版本的DeepSeek-R1,但还没有任何的测试结果。

图片来源:X

记者实测编程能力

为了更全面地测试DeepSeek-R1-0528的编程能力,每经记者设计了三项不同难度和类型的编程任务,包括网页游戏制作、物理世界模拟、财报可视化,来检验其在实际场景中的表现。

任务一:俄罗斯方块游戏开发

作为一款经典的休闲游戏,俄罗斯方块游戏的开发涉及图形绘制、游戏逻辑处理、用户交互等多个方面,能够很好地考察模型对于综合编程知识的掌握和运用能力。

每经记者首先向DeepSeek-R1提出需求:“请帮我开发一个网页端俄罗斯方块小游戏,要求包含游戏分数、彩色方块及多个关卡。”

DeepSeek仅思考了7秒,就开始输出代码。然而,初步生成的游戏无法正常运作,虽有预设的分数与关卡显示,但游戏区域内并没有俄罗斯方块。

图片来源:由DeepSeek生成

随后,记者调整提示词,仅提了最基础的要求,“请帮我写个俄罗斯方块游戏(网页端),直接可以上手玩。”

简洁的指令似乎对DeepSeek-R1-0528更加奏效。这次R1思考9秒,用时约3分30秒便生成了代码。

图片来源:由DeepSeek生成

从游戏页面来看,色彩搭配鲜明且协调,不同颜色的方块在深色背景下十分醒目,游戏区域布局合理,操作说明也清晰明了。

在游戏逻辑方面,方块的下落、移动和旋转都很流畅,没有出现延迟或卡顿现象。

可以说,已经具备了一个成熟俄罗斯方块游戏应有的功能和体验。

任务二:太阳系模拟与交互展示

接下来,难度升级。对于大模型而言,对物理世界进行准确模拟长期以来都是一项极具挑战性的任务。

此次,记者特意选取“行星轨道运动的物理模拟”这一任务,在考察其编码能力的同时,也考察DeepSeek-R1-0528对物理世界的理解能力。

记者向R1提出要求——写一个太阳系模拟网页,并且网页可交互展示。

因为任务更复杂,R1思考时间也相应变长,耗时54秒后开始输出代码。

图片来源:由DeepSeek生成

可以看出,R1的整体完成度极高,完全可以作为中小学科普动画的原型演示。

从界面呈现看,太阳居于中心,八大行星依照各自轨道有序排布,色彩搭配也符合人们对天体的认知。此外,行星的大小比例、相对位置都比较精准。

在交互功能方面,右侧控制面板设计简洁且功能丰富。

同时,页面“行星信息”板块还以简洁明了的文字介绍了太阳及各大行星的关键特征,如太阳的质量、直径,水星的公转周期、表面温度等,兼具科普性与趣味性。

任务三:设计英伟达最新财报网页

最后,每经记者上传了英伟达2026财年第一财季财报的文档,要求R1根据财报中的内容,制作一个可交互的网页。

财报中数据繁杂,文本较长,非常考察模型准确提取文本的能力。

图片来源:由DeepSeek生成

DeepSeek-R1生成的网页令人眼前一亮。在视觉呈现上,网页采用了标志性的“英伟达绿”,颜色搭配协调。

数据方面,基本做到了准确无误,很少出现“幻觉”情况。此外,模型还绘制了柱状图、饼图等图表,让复杂的数据变得一目了然。

尽管可能还存在一些细微的提升空间。比如,在涨跌幅的颜色上,我们通常用红色表示上涨,绿色表示下跌。但可能由于记者投喂的是美股公司财报(美股一般用绿色表示上涨,红色表示下跌),R1用了与之对应的颜色来展示涨跌幅。

整体来看,R1已充分彰显其在复杂任务处理上的卓越潜力。

“全球AI竞赛关键节点”!DeepSeek-R1新版获海外盛赞

DeepSeek最新发布的R1模型升级版在全球AI领域掀起热议,多位国际主流科技大佬及行业高管纷纷发声,盛赞其技术突破。

机器学习研究者kalomaze实测后赞叹道,“DeepSeek太出色了。”

Hyperbolic Labs联合创始人兼首席技术官Yuchen Jin表示,新版R1似乎是唯一能回答9.9减9.11等于几的模型。

知名AI评论人Haider直呼,这是开源的一大胜利。“DeepSeek王者归来了。新版本的DeepSeek-R1在编程方面简直令人难以置信,这是我测试过的最佳模型。”

AI撰稿人乔治·霍普金(George Hopkin)表示,DeepSeek的R1模型更新后,推理和输出能力大幅提升,标志着中国在全球AI竞赛中的影响力日益增强。

瑞士IT咨询公司CTOL Digital Solutions首席执行官Max Zhang指出,DeepSeek的最新版R1模型,正悄然成为谷歌Gemini 2.5 Pro的强劲竞争对手。“这一发展不仅仅是技术进步,更是全球AI竞赛中的一个关键节点。该模型凭借其双倍输出能力和增强的数学推理能力,展示了中国在AI领域的快速崛起。”

DeepSeek此次更新的亮眼表现,为DeepSeek的下一代模型R2注入更多想象空间。Max Zhang表示,在这一“小”进步之后,我们确实可以期待更大突破的到来。

 时事1:男男被❌到爽2次元

  06月03日,英国政要与马斯克就骚乱问题掀“口水战”,

  恶魔嘶吼,离火滔天,云烟电芒交织,这个地方沸腾,三头太古遗种对决,响声惊天动地,震撼了大荒。

,JaPanese熟妇人妻HD。

  06月03日,多部门向吉林省增拨1.8万件生活安置类中央救灾物资,

  罗浮大泽的人郁闷了,原本见这个粗犷的大汉教训孩子,还以为他能说出什么道理呢,结果却是这样一番蛮话,这村子的人难道都很变态吗?

,海阁社区,果冻传媒刘玥黑人91高清在线,美杜莎被到爽被爆视频。

 时事2:妲己被🈲️黄漫扒衣服

  06月03日,大数据报告:中国二手车流动性逐步增强 年末出现冲高行情,

  这个过程持续了两天两夜,最终一切都平静了下来,鼎盖被撞开,小不点一跃二十几米高,冲上高天。

,别揉我奶头⋯啊⋯嗯嗯玉足,芙卡洛斯被❌黄漫免费网站,宋雨琦张开腿让我❌到爽。

  06月03日,建设高能级开放强省:浙江为何提出三个“最”?,

  3、教师要以身作则,在学习行为与学习习惯上成为学生的典范,作学生健康成长的指导者和引路人。即“照亮”学生,又幸福了自己。这不仅需要老师的学识,更重要的是教师的人格魅力。正如德者林德所言:“真正能教导学生的就是教师的人格,而不是所谓的。”所以,希望大家培育“五心二热爱’,即爱心待学生、热心待家长、诚心待同事、尽心待事业、信心待自己,热爱生活、热爱工作。

,国外美女的评委惊呆了,巨胸兔女郎露双奶头无遮挡,成人扒开🍑伸进🍌里91。

 时事3:他摸着我的两个奶我下面好湿

  06月03日,瑞银资产管理报告:中国股市的投资机遇乐观,

  “我都七岁多了,不喝奶了。”小清风难为情。

,911在线无码精品㊙️软件,Gay白袜体育生自慰video,12孩岁女裸体免费看。

  06月03日,(新春走基层)黄土高原上的“苹果之乡”:洛川苹果迎来销售旺季,

  停战后,蛟鹏双臂一震,如一头凶禽一般跃起,一纵就是二十几米,快速冲向村头,想对几个孩子出手。

,惩罚女扒开用棉签和冰块软件,各种姿势顶弄呻吟H漫画视频,潘娇娇核弹巨乳超大视频。

 时事4:男人扒开腿㊙️打扑克动漫

  06月03日,中超:北京国安主场胜成都蓉城,

  精神文明工作取得“大丰收”。深入学习贯彻《公民道德实施纲要》,积极配合开展星级文明城市竞赛活动,结合保持共产先进性教育活动,开展了机关作风“三优、一满意”活动及文明单位、文明行业、文明窗口的创建活动,涌现出一大批先进单位和个人,其中房屋产权交易登记中心被团市委授予“青年文明号”称号;园林处被评为“年自治区五四红旗团委标兵”;系统有两名同志参加了“乌海十大杰出青年”的评选;市建委系统被自治区党委、政府、军区联合授予“文明单位”称号。充分发挥人大、政协的参政议政作用,认真办理人大建议和政协提案,圆满办结了市人大建议件,市政协提案件,被市委、市政府、市人大、市政协评为五届人大政协建议提案办理先进单位。

,❤老师张开腿让我爽了一夜短篇,碧琪侵犯紫悦同人,all吒/R】惩罚哪吒。。

  06月03日,沈铁梅领衔 川剧《江姐》登台梅兰芳大剧院,

  “他自出世以来,至今未尝一败,战绩辉煌,如神临世!”

,动漫女性被强❌视频,女人又爽又黄又硬野战,被十几个男人扒开腿猛戳电刑。

责编:唐纳

审核:阿罗瓦伊斯

责编:林光华

相关推荐 换一换