威廉希尔WilliamHill·足球(中国)体育官方网站
搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

阿里通义发布并行计算新策略:1.6B等效4.4B,内存消耗骤降95%

2025-06-02 23:38:48
来源:

猫眼电影

作者:

邓郁松

手机查看

  猫眼电影记者 邓玺乾 报道w3u7903ejky2ywls

闻乐 发自 凹非寺量子位 | 公众号 QbitAI

既能提升模型能力,又不显著增加内存和时间成本,LLM第三种Scaling Law被提出了。

对于1.6B模型,能实现性能接近4.4B模型,内存占用仅为后者的1/22,延迟增加量为1/6。

并且可直接应用于现有模型(如Qwen-2.5),无需从头训练。

这就是阿里通义团队提出的PARSCALE。

目前LLMs的优化主要有两种思路:参数扩展(如GPT-4)和推理时间扩展(如DeepSeek-R1),但会增加内存和时间成本。

阿里通义团队提出的新范式受CFG(无分类器引导)双路径推理机制的启发。

他们将CFG的并行思想从 “生成阶段的推理优化” 扩展为 “训练和推理全流程的「计算缩放」”。

让我们来扒一扒技术细节。

将CFG的并行思想扩展到计算缩放PARSCALE对于CFG双路径的灵感迁移

CFG 通过同时运行有条件生成(输入提示词)和无条件生成(不输入提示词)两条路径,再通过加权平均融合结果,提升生成质量(如文本相关性、图像细节精准度)。

其核心在于利用并行计算(两次前向传播)增强模型决策的多样性和准确性,而无需增加模型参数。

研究人员观察到CFG的有效性可能源于计算量的增加(两次前向传播),而非单纯的条件引导。

由此提出假设:并行计算的规模(如路径数量)可能是提升模型能力的关键因素,而非仅依赖参数规模或推理时间的串行扩展(如生成更多token)。

CFG用2条并行路径提升性能,PARSCALE则将路径数量扩展为P条(如P=8),并通过可学习的输入变换和动态聚合,使并行计算成为一种可扩展的 “计算缩放” 范式。下图展示了PARSCALE方法。

PARSCALE改进的并行计算框架

1、输入层:可学习的多路径输入变换

核心改进是将CFG的固定双路径扩展为P条可学习的并行路径,每条路径通过可训练的前缀嵌入生成差异化输入。

前缀嵌入生成:为每个并行路径引入可训练的前缀向量(维度与输入嵌入一致),拼接在原始输入前,形成路径专属输入。KV缓存区分:在Transformer的注意力层中,不同路径的键(K)和值(V)缓存相互独立,确保各路径的计算互不打扰,增强输出多样性。

2、计算层:并行前向传播

并行执行:将P个差异化输入同时输入模型,利用GPU的并行计算能力,一次性完成P路前向传播,生成P个输出流。效率优势:通过批量矩阵运算实现P路并行,计算效率随P线性增长,共享模型主体参数,仅增加前缀嵌入等少量可训练参数。

3、输出层:动态加权聚合

通过多层感知机(MLP)动态计算各路径输出的聚合权重,替代 CFG 的固定权重机制:若某路径输出与当前输入语义匹配度高,MLP 会为其分配更高权重。

PARSCALE更高效

PARSCALE vs. 参数扩展

当P=8时,1.6B参数模型在HumanEval的性能(Pass@1=39.1%)接近4.4B参数模型(Pass@1=45.4%),但内存占用仅为后者的1/22,延迟增加量为1/6。

在GSM8K数学推理任务中,P=8使1.8B模型性能提升34%(相对基准),显著高于参数扩展的增益。

两阶段训练策略

阶段1:用传统方法预训练模型至收敛(1Ttokens)。

阶段2:冻结主体参数,仅训练前缀嵌入和聚合权重(20Btokens,占总数据的 2%)。

P=8模型在GSM8K上提升34%,且与从头训练效果相当,证明少量数据即可激活并行路径的有效性。且该策略使训练成本降低约 98%

适配现有模型

研究团队在Qwen-2.5-3B模型上进行持续预训练和参数高效微调(PEFT),仅调整前缀和聚合权重。

结果显示,在代码生成任务(HumanEval+)中PEFT 方法使Pass@1提升15%,且冻结主体参数时仍有效,证明动态调整 P 的可行性。

PARSCALE通过可学习的多路径输入、动态聚合权重、全流程并行优化,将CFG的 “双路径启发” 升级为一种通用的计算缩放范式。

感兴趣的朋友可到官方查看更多细节~

论文链接:https://arxiv.org/abs/2505.10475代码地址:https://github.com/QwenLM/ParScale参考链接:https://x.com/iScienceLuvr/status/1923262107845525660

— 完 —

 时事1:护士❌❌奶头❌❌调教视频

  06月02日,重庆持续高温 游客出游热度不减,

  “啊……”蛟鹏惨叫,虽然肉身强大,但是被这么巨大的一个石碾子盖在脸上,那种滋味苦不堪言,难以忍受。

,黑土大雷漫画本。

  06月02日,中央气象台发布今年首个冰冻预警 7省市有持续性冻雨,

  刚才还镇定自若的诸强都懵了,就在片刻前他们还对石村蔑视,根本不予理会,旁若无人、欲自行处置狻猊宝骨,以及分配三头幼鸟,而现在一个个都惊悚了。

,同性男男gv片免费观看软件,日本吸奶头视频,Chinese男男GayGay网站。

 时事2:纲手裸乳爆乳❌白浆视频

  06月02日,首届青少年三大球运动会将于11月举行 运动会主标识在京发布,

  这一刻,四十二颗兽牙一起悬浮,全都发出璀璨的光芒,彼此相连,像是化成了一件战衣,披在了狈风的身上。

,大美女出水o,3D 同人 动漫 触手 无尽,打白嫩㊙️光屁屁女网站视频。

  06月02日,一箭18星 中国成功发射千帆极轨01组卫星,

  山脉最深处,激烈的大战开启,如同神话一般,那铺天盖地的金色大爪子每一次落下都会抓崩一条山岭。

,揉⋯啊⋯嗯~出水了第一集,宝宝⋯腿张大点就不疼了,涩请性潢片免费视频软件。

 时事3:木下凛凛子无码流出链接

  06月02日,福建建瓯:中华秋沙鸭归来 生态向好展新颜,

  然而,未等他临近,少妇惨呼,身子直接炸开了小半。

,粉嫩内射水多多,小雪好爽好紧再深一点雷安,老熟女大屁股熟妇多毛。

  06月02日,文明遇鉴|这些青铜国宝身上蕴含了哪些“文明密码”,

  当狈风滚落到石林虎脚下时,他也直接就是一脚,踢了出去,这样数千斤的巨力,足以踏死猛兽,狈风再强大,也是又断了一些骨头,嘴角抽搐,血水与汗水齐流。

,我在开会他在下添好爽视频,被老师C嗯~~哼~~唧~,亚洲偷窥女厕一区二区三区。

 时事4:别揉我啊嗯~喷水了男男

  06月02日,长三角铁路2024年春运预计发送旅客8900万人次,

  同学们,中国共产主义青年团是中国共产党领导的先进青年的群众组织,是中国共产党的助手和后备军。是实现共产主义伟大事业的生力军和突击队。中国共青团团徽的内容为团旗,齿轮,麦穗,初生的太阳及其光芒,写有“中国共青团”五字的绶带。它象征着共青团在马克思列宁主义、毛泽东思想、邓小平理论和“三个代表”的光辉照耀下,团结各族青年,朝着党所指引的方向奋勇前进。加入中国共青团标志着你们又成熟了,又进步了,从童年时期跨入了少年时期和青年时期。

,男女做㊙️视频入口,守约被铠❌到爽🔞高潮痉挛,男同被❌到爽🔞无套。

  06月02日,北京市气象台发布冰雹黄色预警信号,

  3、 小班额,便于管理,有利于学生水平的提高。

,美女裸体㊙️直播中国,大雷擦大狙图片视频大全,免费观看成人a毛片A片涩涩屋。

责编:孟繁华

审核:薛运冒

责编:白洋铭

相关推荐 换一换