EPIC Lab团队 投稿量子位 | 公众号 QbitAI
首个用于加速扩散式大语言模型(diffusion-based Large Language Models, 简称 dLLMs)推理过程的免训练方法。
上海交通大学EPIC Lab团队提出了一种无需训练、即插即用的高效推理缓存机制:dLLM-Cache。
其核心思想在于,在一个多步去噪过程中,复用相邻时间步上变化较小的特征,仅更新那些变化较大的特征,从而实现了计算量的大幅降低,并保持了原有的生成质量。
图1 不同dLLMs使用dLLM–Cache和不使用dLLM–Cache在速度和质量上的对比
dLLM-Cache具有几个重要的亮点:
1. 训练无关,即插即用。dLLM-Cache完全在推理过程中工作,无需修改模型参数或重训练。dLLM-Cache可以在完全不损失模型输出质量的前提下,带来最高9.1倍的推理速度提升 。
2.通用于主流dLLM架构,如LLaDA、Dream以及LLaDA-V、MMaDA、Dimple等多模态模型。
3. 在推理过程中,首次识别出了prompt部分的Transformer中间层特征(Key、Value、Attention output、FFN output)长期稳定,而response部分仅有一小部分tokens的特征变化较大,为缓存特征并后续复用提供了理论基础。
4. 独创了以V-verify机制为核心的选择更新策略。以Value向量的变化为选择基准,成功识别出了response部分变化较大的那些tokens,通过仅更新这些特征,摒弃了高达75%的冗余计算。
本论文共同第一作者刘知远和杨奕存是哈尔滨工业大学2022级本科生,目前在上海交通大学EPIC Lab进行科研实习,师从张林峰助理教授,主要研究方向为高效深度学习,此前曾在CVPR2025上收获满分论文。
接下来,我们一起来看看该研究的细节。
研究动机
基于扩散的大语言模型正成为语言生成领域最受关注的新范式之一。随着模型架构的发展、去噪算法的优化以及Masked Diffusion在语言建模中逐步展现出与自回归模型不同的建模能力,这类模型正在逐步成为挑战 GPT 等主流模型的重要力量。
以LLaDA、Dream为代表的扩散语言模型,基于迭代去噪的生成过程,不再依赖严格的自回归因果结构,天然支持双向建模、全局依赖和反向推理等能力,已经在“逆转诅咒”、数学推理等任务上展现出领先性能。
然而,这种范式的优势也伴随着巨大的代价。为了确保生成的质量,dLLMs在推理过程中通常需要执行长达数百步的去噪迭代,每一步都需重新计算attention、FFN等所有层的特征,计算量相当于多次完整前向传播。这为dLLMs的推理效率带来了严重的瓶颈,制约了其实际部署。更重要的是,主流的加速手段如用于自回归模型的KV Cache,由于不兼容双向注意力架构,在dLLMs中完全失效。
与传统的自回归语言模型不同,dLLMs不再依赖顺序生成下一个token,而是采用随机遮蔽(mask) + 逐步还原的方式建模token分布,这种机制使得模型具备天然的双向建模能力,理论上能够更好地处理逆向逻辑、长距离依赖等任务。
LLaDA 等模型已经在多个基准任务中超越主流ARMs,尤其在“逆转诅咒”上明显胜出。
然而,这种扩散式推理带来一个严重的挑战:为了确保生成质量,dLLMs通常需要上百步的去噪迭代,每一步都需全量计算Attention、FFN等模块,导致其推理速度相比ARMs慢一个数量级,落地成本高。同时,ARMs 通用的加速方法如KV-Cache因dLLMs的双向注意力设计而无法兼容。这些造成了dLLMs在推理时既慢又缺乏加速手段的现象。这正是 dLLM-Cache所要破解的核心问题。
方法简介
本文作者仔细研究了dLLMs推理的中间特征变化过程,发现如下关键现象:
图2 dLLM中两个相邻去噪步骤之间的Key、Value、Attention Output和FFN Output的余弦相似度
Prompt tokens的特征在整个去噪过程中基本保持稳定,每一步都重新计算这些特征是完全不必要且浪费计算资源的;
Response tokens多数变化很小,仅少部分变化剧烈,全量计算所有response tokens存在冗余。
由此,问题转化为了如何高效识别出这些变化剧烈的response tokens。
图3 Response tokens的K或V变化与其他特征变化的相关性
本文作者首创性得提出了V-verify机制。它的提出源于另一项重要的发现:作者量化了response tokens的底层特征(Key, Value向量)的变化与其上层复杂特征(Attention Output, FFN Output)的变化之间的关系,结果显示它们存在着极强的正相关性,皮尔逊相关系数最高可达0.944。
这意味着,一个token底层的Value向量是否发生变化,是其整体状态是否发生改变的一个极佳的、且计算成本极低的“指示器”。
基于以上这些关键的观察,本文作者提出了dLLM-Cache ,具体的框架设计如下:
图4 dLLM-Cache方法整体pipeline
Prompt缓存:长间隔重用
对于prompt部分,作者设计了长间隔Prompt缓存,每隔Kp步(在实验中一般设置为100)更新一次prompt的Key、Value、Attention Output、FFN Output,其余步骤全部复用先前结果。这样避免了对稳定不变的特征的重复计算,大幅减少了计算量
Response缓存:自适应部分更新
对生成目标response区域,由于response tokens的特征并不是一直保持稳定不变的,作者设计了较短间隔的Response缓存,每隔Kr步(在实验中一般设置为8左右)全量更新一次response的Key、Value、Attention Output、FFN Output,在其余的步骤,作者提出了基于V-verify的自适应缓存策略
在每个去噪步骤,首先计算所有response tokens最新的Value向量。然后,通过计算新Value向量与缓存中旧Value向量的余弦相似度,将余弦相似度作为每个response tokens的一个“变化分”。选出“变化分”最高(即相似度最低)的极少数tokens(例如,变化最剧烈的25%),将它们标记为“待更新” 。最后,模型只对这些被标记的“待更新”tokens,进行完整的特征重计算。而其余75%的“稳定”tokens,则继续高效地从缓存中复用其特征
通过这种“长间隔”与“自适应”相结合的缓存策略,dLLM-Cache在Transformer的每一层都实现了计算量的极致优化,且整个过程无需任何额外训练,做到了真正的即插即用
3 实验结果
本文在 LLaDA 8B和Dream 7B两大代表性的开源dLLM的基础版与指令微调版上,针对数学与科学、通用任务、代码生成三大领域的8个主流基准测试,对dLLM-Cache的有效性进行了严苛的检验 。评估维度不仅包括推理速度(TPS)计算效率(FLOPs),更核心的是模型性能得分(Score),以确保加速不是以牺牲模型能力为代价
本文在LLaDA 8B的基础版和指令微调版上都部署了dLLM-Cache,下图的实验结果充分展示了其强大的加速能力和卓越的生成质量保持。在几乎所有的基准测试中,达到了5倍以上的加速效果,且在绝大部分情况下,生成质量都没有降低,甚至有轻微的提升。特别是当面对LongBench任务时,prompt的稳定性带来了更显著的加速效果,在HotpotQA上实现了高达9.1倍的无损加速
图5 dLLM-Cache在LLaDA模型上的效果
为了进一步证明dLLM-Cache的通用性和鲁棒性,作者将其无缝迁移至另一款架构略有不同的dLLM——Dream 7B上。下图的实验结果再次印证了dLLM-Cache方法的有效性,充分说明了其通用于主流dLLM架构
图6 dLLM-Cache在Dream模型上的效果
作者还将dLLM和主流的基于ARM的LLM进行了对比,下图展示了LLaDA 8B与LLaMA3 8B在GSM8K任务上的比较。结果显示,原始的LLaDA在准确率上以近20个点的巨大优势领先于LLaMA3,但在推理速度上却远不及。然而,在使用了本文的dLLM-Cache之后,LLaDA的推理速度获得了超过3.3倍的提升,首次超过了LLaMA3的推理速度。这一结果有力地证明,本文提出的dLLM-Cache能够让dLLMs在保持其显著准确率优势的同时,获得与ARMs相当竞争力的推理速度
图7 使用dLLM-Cache的dLLM vs 使用KV-Cache的ARM
论文链接: https://github.com/maomaocun/dLLM-cache/blob/main/asset/paper.pdf代码已开源: https://github.com/maomaocun/dLLM-Cache
《他日着我说我欠日找了几个男的扣》,《w3u7903ejky2ywls》女无套自慰✅免费网站他趣情
“云缨脱了内裤求被c的小说”
国产重口泻火老女人
……
06月05日
“姬小满裸乳被爆❌白浆9”国足0比1不敌韩国队
↓↓↓
06月05日,打好强降雨防御硬仗,广东“拼了”!,成人🔞在线观看免费视频,原神黄男男纯肉巨黄Gay动漫,男生扒开🍑伸进🍌❌白丝,女仆被撕开衣服揉搓双乳
06月05日,乘地铁同站进出10分钟内免费吗,美女私㊙️比基尼慢慢脱,欧美做受高潮9吃奶,纲手❌❌❌爆🈲🔞,91美女㊙️片黄在线观看用鞭子
06月05日,欧盟发布初裁披露 拟对中国电动汽车征收临时反补贴税,动漫的裸体㊙️免费看,欧产日产国产精品v,麻豆黄漫❌18禁动漫原神,女帝被路飞❌❌羞羞漫画
06月05日|习言道|APEC是什么?为何如此重要?|视频丨9l丨大学生|91❤国产丝袜在线播放-百度|精品无码㊙️人妻一区二区媚黑|人C交2oo20乂❌真人收藏
06月05日|中国机动车保有量达4.4亿辆 驾驶人达5.3亿人|国产人妻性生交大片|少司缘被c到高潮下不了|斗破苍穹3d动漫同人观看网址|国产做受窜天厚
06月05日|杭州西湖区一地发生火灾事故 造成4人受伤|亲嘴脱内衣👙内裤电话|91高跟❌❌⭕⭕白丝|绯红女巫裸被❌视频网站|狠狠干……
06月05日,海南2023年多项经济指标增速名列全国前茅,蘑菇mogu2,骚B叫大声点C烂你的SB视频,程潇宋雨琦裸体自慰,强行扒开腿❌狂揉❌玩
06月05日,新帅新人新理念 国足“吐故纳新”,火影小南 乳液,3D雷电将军❌AV黄漫,超帅男男Gay自慰出精,白月季泊洲浮糜人生
06月05日|助力新型城镇化 第17届中国城市建设投融资论坛在雄安开幕|揉我奶⋯啊⋯嗯高潮孕妇电影|Двойноеسىكىش.|共享妈妈小说第二部更新时间|日产无码久久久久久精品汤唯
06月05日,台湾史进上海校园活动举行:阅见历史 开创未来,男仆被❌到爽🔞高潮痉挛,FC2PPV颜出し処女丧失か,千仞雪被撕烂胸罩和内裤,精灵宝可梦本子18❌
06月05日,大陆居民赴金、马旅游热情高 国台办将续推赴岛内团体旅游,被❌到爽🔞流免费动漫下载,巨胸爆乳露双奶头被❌游戏触手,小舞18❌网站视频在线看,日本老师裸体做爰
06月05日,上海检察机关依法对胡欣决定逮捕,高清日本撒尿,91无码➕高潮➕在线不卡,敖闰被❌❌❌后喷出水,姓爱图片大全网名女
06月05日|台胞点赞东北夜市:干净、热闹、好吃|【咒术回战】爱与欲的漫长盛夏|日本憋尿➕挠胸➕挠脚心|掀开奶罩边躁狠狠躁学生小说男男|成人Av导航
06月05日|“沈阳故宫观景台”上线!打卡沈阳故宫有了新方式|巨乳美女❌❌爆乳|AI迪丽热巴被❌出水来|男警察被两男双龙玩弄|✡️黄🔯色✡️网站
06月05日|贵州侗寨晒秋忙|动漫同人❌AV黄网站|肥婆A片无套内谢WWW|国产婬妇❌❌❌❌❌.金瓶.中国|色欲XXOO久久久精产国品
易烊千玺没被认出来,王铁梅 妈妈姐姐老婆三角形战士|多地发放新一轮消费券 涵盖餐饮、住宿、电影等多个领域|学生91国内揄拍国内精品|男人把🍌伸近女人🍑|高跟鞋脚交shoefootjob|动漫美女被c❌到爽无修
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺