梦晨 发自 凹非寺量子位 | 公众号 QbitAI
推理大模型开卷新方向,阿里开源长文本深度思考模型QwenLong-L1,登上HuggingFace今日热门论文第二。
其32B参数版本超过OpenAI-o3-mini、Qwen3-235B-A22B等,取得与Claude-3.7-Sonnet-Thingking相当的性能。
除测评分数外,论文中还详细展示了一个金融文档推理的案例。传统模型容易被无关细节误导,而QwenLong-L1通过回溯和验证机制过滤干扰信息,正确整合关键数据。
任务要求:根据文档回答问题“将优先票据的发行成本与第一年的利息支出合并计算,总资本成本是多少?”
首先出场的基础模型DeepSeek-R1-Distill-Qwen-14B被文档中“自2011年10月15日起每半年支付一次利息”误导,根据不相关的时间和财务信息,错误计算了第一年的利息支付。
接下来,经过额外SFT的版本仍然未能解决这个问题。
它在对不相关文档进行过度分析的循环中自我怀疑,最终尽了最大生成限制(10000 tokens),却没有给出最终答案。
相比之下,虽然QwenLong-L1-14B最初也表现出类似的分心,但它很快进行了有效的自我反思。通过及时验证和回溯,成功过滤掉了不相关的细节,得出了正确答案。
那么,QwenLong-L1是如何做到的?
渐进式上下文扩展
首先,现有推理模型在面对长文本(如几万字甚至更长)时遇到什么问题?
Qwen团队通过对比实验发现,长文本推理的强化学习训练存在两个“硬伤”:
一是训练效率低,传统强化学习(RL)方法在长文本中容易陷入局部最优,奖励收敛慢,限制了策略优化时的探索行为。
二是优化过程不稳定,长文本任务的输出长度更高、输入长度分布不均匀,导致策略更新时的方差被放大,训练过程中参数更新不稳定(如KL散度坐过山车)。
为此团队提出QwenLong-L1训练框架,核心是通过渐进式上下文扩展让模型逐步适应长文本推理。训练过程分为两阶段:
预热监督微调(Warm-Up Supervised Fine-Tuning)
在开始强化学习之前,先用高质量的演示数据进行监督微调,让模型先具备基本的长文本理解能力、推理链生成能力和答案提取能力。
团队从DeepSeek-R1蒸馏了5.3K个高质量的问题-文档-答案三元组,确保模型有个稳定的起点。实验结果显示,这个”热身”阶段对后续的强化学习训练至关重要。
课程引导的分阶段强化学习(Curriculum-Guided Phased Reinforcement Learning)。
从短文本逐步过渡到长文本。例如,先训练模型处理2万token的文本,稳定后再增加到6万token,最后到128K。每个阶段只关注对应长度的文本。
此外还引入了难度感知的回溯采样机制。在进入下一阶段时,会保留前一阶段中最难的样本(平均准确率为零的那些),确保模型不会”忘记”如何处理困难案例。
长文本问答的答案往往比较开放,单纯的规则匹配太死板,可能漏掉正确答案。
QwenLong-L1在强化学习训练中采用混合奖励函数,结合了基于规则的验证和LLM-as-a-Judge。
规则验证也就是直接检查答案是否与标准答案完全一致(如数学题计算结果是否正确),再用另一个模型判断答案的语义是否正确(应对答案表述不同但意思一致的情况),两者结合避免单一规则过于严格或宽松
在DocMath、Frames、2WikimQA等七个长文本基准测试中,QwenLong-L1-14B相比基础模型R1-Distill-Qwen-14B,平均提升了4.1分,超越了Gemini-2.0-Flash-Thinking和Qwen3-32B。
QwenLong-L1的32B版本相比基础模型提升了5.1分,达到70.7的平均分。这个成绩不仅超过了OpenAI-o3-mini(70.4分)、Qwen3-235B-A22B(70.6分),甚至和Claude-3.7-Sonnet-Thinking(70.7分)打成平手。
团队还针对Test-time Scaling性能做了评估。当生成16个候选答案时,QwenLong-L1-14B的表现超过了DeepSeek-R1和OpenAI-o1-preview。
最后论文中还深入探讨了两个问题:
既然SFT相对简单便宜,为什么还要费劲搞强化学习(RL)?
实验结果很有启发性。长文本SFT确实能带来2.6分的提升,比短文本SFT的效果更好。但是,如果在长文本SFT的基础上再做RL,提升幅度只有0.3分;而在短文本SFT基础上做RL,却能提升3.2分。
对此团队提出一个观点:SFT提供了一种经济的性能提升方式,而RL则是达到最优性能必不可少的。
通过跟踪分析了四种关键推理行为发现3个结论:信息定位(grounding)、子目标设定(subgoal setting)、回溯(backtracking)和验证(verification)。
所有模型都展现出明显的推理行为,尤其是信息定位行为出现频率最高,这证明了它在处理上下文依赖推理时的重要性;强化学习训练过程中,这些行为会逐渐增强,并与性能提升高度相关,表明强化学习能有效调整输出空间,优先保留有助于得出准确解答的推理模式虽然SFT模型也能学会这些行为,但这些表面上的行为模仿并没有带来实质性能提升,这揭示了SFT更关注表面模式匹配,而非实质推理能力的培养。
论文地址:https://arxiv.org/pdf/2505.17667
《把校花🌸吊起来打屁股》,《w3u7903ejky2ywls》散兵被摁在床上C了一天
“成人免费观看A片www下网魅影”
裸体调教女仆污手机游戏
……
05月30日
“麻豆水白嫩网站❌喷水”广州:呼吸道疾病以流感为主
↓↓↓
05月30日,通讯:“塞外西湖”乌篷船与红嘴鸥亲密接触记,师母归来2高清在线播放,纲手裸乳被❌出白色液体视频,舌头伸进妈妈的小泬图片,国产高清网址
05月30日,江西新余:仙女湖新年首捕 生态鱼“游”向全国,做爰XXXⅩ性生交,无尽❌裸体❌网站蜜桃,欧美性猛交ⅩXX乱大交03,免费看同人动漫网站
05月30日,百余位公益人士聚福州共论福建公益文化发展,十八禁🔞免费网软件视频下载,性亂倫XXXX乱大交女3视频,女女❌互慰吃奶互揉调教捆绑,国产㊙️精品入口❤️豆花
05月30日|海南三亚出现强降雨 全市中小学幼儿园停课|日本⭕⭕⭕⭕XXxX人|女仆扒开腿㊙️让男人玩|揉⋯啊⋯嗯~出水了性瘾视频|雅典娜遭强高潮开双腿
05月30日|依法遏制高额彩礼|打屁股🍑sp惩罚调教|隔着内裤把她摸尿|妲己巨乳❌拔萝卜❌自慰|舞蹈室里强摁做开腿呻吟
05月30日|“湾区之心”如何激活新动能?|特种兵被改造成精牛的背景故事|比基尼👙张开腿最小的|【快穿】肉玩具系统(H,简体)|欧美⭕⭕⭕⭕XXXX⑧中文……
05月30日,专家学者探讨新质生产力与长江经济带高质量发展,龙珠3D同人18❌羞羞漫画免,漫画yaoi❤♂video漫画,撕开👙🍌进屁股视频,免费➕无码➕国产成年白嫩精品
05月30日,中俄两家花样滑冰俱乐部达成合作,16美女隐私㊙️照片,天堂WWW在线а√天堂,22精品㊙️一区二区三区,偷窥女厕美女撒尿㊙️视频
05月30日|亚洲杯国足0:1不敌卡塔尔 排名小组第三出线待定|王者女被超污裸体网站|JAV丶HD❌❌❌中文|html如何弹出小窗口|日本19岁上大学上网课可以吗
05月30日,总投资超千亿 24个项目“牵手”呼和浩特航天经济开发区,SpermatidPro官方入口,3d成人性动漫在线观看,娼年贞德全文漫画下拉式免费观看网页,人人操人人操人人偷窃妇科tubesex手术q
05月30日,中国体育代表团:应对个别出现失误运动员给予理解,女性扒开👙看个够小说,法国女仆成人版,免费🔞成人❌❌二次元,火影琳被🌿到到喷水
05月30日,陈晓拴代表——科学推进乡村规划落实,14萝双腿白浆高潮视频,女生脱裤子露出给客人玩,申鹤被❌到爽🔞流触手,扒开李沁双腿猛烈进入
05月30日|礼来替尔泊肽实现平均减重20.2% 头对头研究显示优于司美格鲁肽的13.7%|鸣人被C哭着爬又被拉回挺进|二次元美女挤奶🈲🚫动漫|揉⋯啊⋯嗯~出水了第一集|原神⚠️羞羞漫画sss入口
05月30日|澳大利亚一轻型飞机坠毁 两人重伤|欧美日韩成人🔞AV欧美|千仞雪被坏人调教|精品处破女学生|五十路息子冈江
05月30日|2024年内蒙古自治区蒙古马超级联赛开赛|忘记穿奶罩被同学玩乳了|五条悟被多人玩弄H|性欧美精品❌❌❌❌❌动漫|(http://www.91n.com)
生活在别处的我,一飞往日本客机发生机舱内袭击事件|南非大选登记选民超2700万|手机乱码转换器|芙宁娜❌暴爽自慰喷水小说|火影忍者鸣人❌井野|莫娜被❌吸乳网站动画
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺