威廉希尔WilliamHill·足球(中国)体育官方网站
搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

策略学习助力LLM推理效率:MIT与谷歌团队提出异步并行生成新范式

2025-06-01 15:38:45
来源:

猫眼电影

作者:

何勇海

手机查看

  猫眼电影记者 伯纳德·希尔 报道w3u7903ejky2ywls

金天,麻省理工学院(MIT)计算机科学与人工智能实验室(CSAIL)博士五年级学生,师从 Michael Carbin 和 Jonathan Ragan-Kelley。他主要研究机器学习与编程系统的结合。此前曾在 IBM Research 主导实现深度神经网络在 IBM 主机上的推理部署。本科毕业于 Haverford College,获计算机科学与数学双学位。

鄭鈺熹,麻省理工学院 CSAIL 博士三年级学生,师从 Michael Carbin。她的研究方向为编程语言与机器学习的交叉领域。

大语言模型(LLM)的生成范式正在从传统的「单人书写」向「分身协作」转变。传统自回归解码按顺序生成内容,而新兴的异步生成范式通过识别语义独立的内容块,实现并行生成。

如图所示,传统方法(下)按顺序生成所有内容,而异步生成(上)同时处理多个互不依赖的内容块。对比顺序生成,异步生成在 AlpacaEval 长度控制评测中实现1.21-1.93× 的几何平均提速,对应生成质量变化(胜率)为 +2.2% 至 -7.1%。

MIT 与谷歌研究团队在最新研究 PASTA(PArallel STructure Annotation)中首次从策略学习(policy learning)角度探索异步生成范式的可能。

论文标题:Learning to Keep a Promise: Scaling Language Model Decoding Parallelism with Learned Asynchronous Decoding论文地址:https://arxiv.org/abs/2502.11517

研究团队不依赖人工设计规则来识别异步生成机会,而通过策略学习让模型自主发现并标注这些机会,系统地优化质量与速度的平衡。这种方法使 LLM 根据内容特点自适应地确定最佳异步生成策略,为生成效率优化开创学习驱动的全新路径。

PASTA-LANG:划分独立内容的标记语言

研究人员首先开发了一种新的标记语言 PASTA-LANG,专为异步生成而设计。大模型使用它在生成过程中标记语义独立块,指示并行生成机会。这种语言包含三种核心标记:

:标记语义独立的内容块,通过 topic 属性总结内容主题,大模型用它表明「这部分将会由一个独立子线程异步生成」。:在后标识对应的异步生成的内容,表示这一部分由独立子线程负责生成。:在主线程标记同步点,表明后续内容生成将会依赖于之前的异步生成,主线程需等待所有异步线程完成后才能继续。

这些标记共同构成了一种「承诺-履行」的生成模式:大模型首先通过

标记「承诺」生成某些内容,推理系统再创建异步线程来「履行」这些承诺,最后在

处将异步内容组合。

如图所示的线段长度计算案例展示了这一机制:面对计算任务(A),大模型首先识别出「坐标提取」和「长度公式」两个可并行的独立部分,生成相应的

标记(B),随后用

标记(E)表明需要等待这些内容完成。图中红色和绿色区域(C、D)显示了两个异步线程并行生成的内容,最终在(F)处组合成完整解答。

这个新的标记语言简单,可扩展性强,开启了新的未来研究范式。

PASTA 训练:从标注到优化的双阶段学习

如图所示,PASTA 系统采用双阶段训练流程,使大模型自主学习使用上述标记语言,完成异步生成。

第一阶段:监督微调。研究团队首先选取 SlimOrca 指令跟随数据集,用 Gemini 1.5 Flash 为 100K 条样本添加 PASTA-LANG 标记,在样本回答中插入

标记,创建 PASTA 微调数据集。团队随后对 Gemma 7B 进行监督微调,得到能插入 PASTA-LANG 标记的 PASTA-SFT 模型。

第二阶段:偏好优化。为优化标注策略,团队设计了策略学习方案。团队对每个样本从 PASTA-SFT 模型采样多种标注方案,然后基于两项指标评估这些方案:理论加速比和内容质量(由 Gemini 1.5 Pro 评估)。根据评估结果,团队构建「拒绝采样数据集」,该数据集包含每个输入的最佳和最差标注方案。最后,团队用 BoNBoN 算法对 PASTA-SFT 模型进行偏好优化,得到最终的 PASTA 模型。

PASTA 推理系统:并行生成与缓存管理

推理系统设计难点。异步并行生成的主要挑战在于如何协调多个线程高效协作。传统方法通常需要为每个线程创建独立的 KV 缓存池——创建新线程时必须复制主线程的前缀内容到子线程缓存池,完成后再复制结果回主线程。这两次大规模矩阵复制操作严重限制了系统性能,使理论加速难以转化为实际收益。

KV 缓存的存储布局。PASTA 设计了交错式 KV 缓存布局,所有线程共享单一连续内存池。系统初始以连续方式存储用户输入,在推理过程中动态将不同线程在同一时间点生成的 token 交错存储在相邻位置。

注意力控制与位置编码。PASTA 通过两个机制确保大模型正确理解多线程交错存储的 KV 缓存:

注意力掩码控制:限制子线程只能访问与自己相关的内容,在后通过移除掩码使主线程能访问所有子线程生成的内容。位置编码调整:每个线程都使用独立且连续的位置编码,使线程处理自己的内容时,将交错存储的内容视为逻辑上连续的序列,确保模型能正确理解上下文。

这些设计共同确保 PASTA 能在提高速度的同时保持输出质量。

实验结果:Pareto 最优与可扩展性

PASTA 在性能与质量的平衡上取得了突破性成果,实验结果表明它不仅实现了显著加速,还在某些情况下提高了输出质量。研究团队在 AlpacaEval 基准上进行了全面评估,该基准包含 805 个具有代表性的指令跟随任务。

质量-速度平衡的 Pareto 前沿。如图所示,PASTA 通过调节质量权重参数生成了一系列的模型。在不同的生成质量的情况下,PASTA 均能提供非常可观的加速。结果显示,即使最注重质量的 PASTA 模型也能提供显著加速,而最快的模型则以一定的质量牺牲换取接近 2 倍的速度提升。与基于手动设计的异步生成方案(Skeleton-of-Thought, APAR)相比,PASTA 模型展现出全面优势。

可扩展性。研究结果展示了 PASTA 方法出色的可扩展性,如图所示。随着偏好优化不断推进,PASTA 模型的性能持续提升。图中清晰展示了从第一轮开始到第一轮结束,再到第二轮开始和第二轮后半程的整个优化过程,质量-速度的 Pareto 前沿大体持续向右上方推进。

这种稳定的改进趋势表明,PASTA 方法具有良好的可扩展性——随着投入更多计算资源,仍未饱和。与传统依赖固定规则的异步解码方法不同,PASTA 通过策略学习驱动的训练算法提供了可持续的优化路径,能够有效地将额外计算资源转化为更高的推理效率。

总结与展望

PASTA 首次证明,通过策略学习让 LLM 自主优化生成策略,能够突破传统自回归和基于规则的异步生成的效率极限。这一工作不仅为实时大模型应用提供了实用加速方案,更印证了未来 LLM 可能具备推理时自我优化能力的发展方向。

 时事1:军警Gay呻吟XXX

  06月01日,为家乡代言!李宇春受聘四川文化旅游宣传推广大使,

  结合全面深入学习贯彻党的精神、习近平新时代中国特色社会主义思想以及系列重要讲话精神,牢固树立“创新、协调、绿色、开放、共享”和“绿水青山就是金山银山”的发展理念,统筹山水林田湖草治理,以建设生态文明为总目标,以构建祖国北方重要生态安全屏障为总任务,以深入实施国家重点林业工程和贯彻落实新一轮草原奖补政策为依托,坚持深化改革,绿色惠民,为全面建成小康社会和美丽内蒙古作出新的更大贡献。

,熊出没纳雅被C❌裸体。

  06月01日,南北山绿化工程拓宽群众增收路,

  近年来,我国装备制造业发展较快,年均增长速度为17.6%左右。但我们可以看到,国内装备制造业的劳动生产率和工业增加值率、新技术新产品的研发能力等仍然远远落后于世界发达国家;在产业结构上仍然以劳动密集型为主,且企业集中度低,大型骨干企业少。近几年由于多方面的影响,导致装备制造业发展速度有所减缓,甚至出现亏损、减产、裁员现象,但部分行业仍有较大的发展空间,如多晶硅行业和核电行业近几年发展迅猛,又属于新能源领域,发展前景看好,但又受到多方面的影响,可以说是机遇与风险并存。

,FerrPorno💋👙49,捆绑㊙️免费视频网站,大乳美女大乳。

 时事2:学生露出🐻让老师玩作文

  06月01日,广东逾百个寒冷预警信号生效 部分地区交通管制,

  “快出手,万不能让他成功!”

,羞羞漫画❤️在线入口,欧美∨iboss,公车下身被粗暴进入在线观看。

  06月01日,外媒聚焦世界经济论坛年会:重建信任、加强合作丨世界观,

  随着农业向专业化、市场化、现代化转变,特别是随着农村基层民主的不断扩大,农村基层干部尤其是村干部,必须懂政策、懂法制、懂市场、懂科技、懂管理,只有这样才能履行好职责,做好本职工作,才能真正发挥核心和带头作用,才能得到群众的拥护和支持。因此,大家必须提高七种能力,强化驾驭农村工作的本领和水平。

,古力娜扎光着胸奶头照片,mmd18❌18禁18r网站,粗口➕灌满h双龙h男男室友视频。

 时事3:六十路韵母

  06月01日,扫码消费不应成为“单选题”,

  20xx年,机电科在矿党政的正确领导下,紧紧围绕“保安全、保稳定、促生产、增效益”,坚持从安全宣传教育、技能培训、现场管理入手,以扎实的工作作风、得力的工作措施,全方位、多层次抓安全基础管理,安全可靠性得到了加强,有力促进矿井安全生产。去年全年共完成8个工作面的安装、拆除,掘进机的10次安装,8次拆除,安全上没有发生一起轻伤以上人身伤害事故,没有出现一次“三违”现象。主要做法为:

,女人把脚扒开㊙️九色,花季少女高清免费观看完整,赵露思张开双腿让人搔。

  06月01日,中新社记者实地探访塞尔维亚“中国桥”,

  1严格隐患排除整改制度,及时解决工作中出现的问题。在每天的班前会上认真排查职工身体状况、思想动态,从源头上控制住。开工前细致排查作业现场存在的各种隐患,专人处理隐患,处理完后还要有专人验收,只有在处理完隐患后才能开始工作,并做好详细记录,排查、处理、验收每关都有相关人员签字,责任落实到人。

,香蕉文化免费登录入口官网,张天爱被躁120分钟视频,12孩岁女裸体免费看。

 时事4:❌❌❌美女裸体免费视频

  06月01日,看文字砖、观麒麟影壁 乌克兰留学生金山岭感受长城文化,

  远行的你们请记得一中给你们注入的一切,简单说就是“健康、成长”,也就是希望你们在积极寻求理解他人的文化规范和期望的同时,保持开放向上的心态,即使离开了自身熟悉的环境,也能用所获得的知识有效地进行互动、沟通、学习和工作。

,亚洲AV无码久久久久精品同性,神里凌华白丝好紧我进去了,FreePorno💋👙59。

  06月01日,时政Vlog|现场见证!多位驻华大使递交国书,

  “青鳞鹰大婶!”小不点悲愤,带着哭腔,眼中中噙满泪水,竭尽所能阻挡。

,动漫女人扒开🍑男生摸,鞠婧祎同人18❌AV黄漫网站,桃花源(原:小黄人)最新版。

责编:法尔考

审核:元稹

责编:路易十四

相关推荐 换一换