威廉希尔WilliamHill·足球(中国)体育官方网站
搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

阿里通义发布并行计算新策略:1.6B等效4.4B,内存消耗骤降95%

2025-06-04 14:50:47
来源:

猫眼电影

作者:

水原希子

手机查看

  猫眼电影记者 郭昊瑜 报道w3u7903ejky2ywls

闻乐 发自 凹非寺量子位 | 公众号 QbitAI

既能提升模型能力,又不显著增加内存和时间成本,LLM第三种Scaling Law被提出了。

对于1.6B模型,能实现性能接近4.4B模型,内存占用仅为后者的1/22,延迟增加量为1/6。

并且可直接应用于现有模型(如Qwen-2.5),无需从头训练。

这就是阿里通义团队提出的PARSCALE。

目前LLMs的优化主要有两种思路:参数扩展(如GPT-4)和推理时间扩展(如DeepSeek-R1),但会增加内存和时间成本。

阿里通义团队提出的新范式受CFG(无分类器引导)双路径推理机制的启发。

他们将CFG的并行思想从 “生成阶段的推理优化” 扩展为 “训练和推理全流程的「计算缩放」”。

让我们来扒一扒技术细节。

将CFG的并行思想扩展到计算缩放PARSCALE对于CFG双路径的灵感迁移

CFG 通过同时运行有条件生成(输入提示词)和无条件生成(不输入提示词)两条路径,再通过加权平均融合结果,提升生成质量(如文本相关性、图像细节精准度)。

其核心在于利用并行计算(两次前向传播)增强模型决策的多样性和准确性,而无需增加模型参数。

研究人员观察到CFG的有效性可能源于计算量的增加(两次前向传播),而非单纯的条件引导。

由此提出假设:并行计算的规模(如路径数量)可能是提升模型能力的关键因素,而非仅依赖参数规模或推理时间的串行扩展(如生成更多token)。

CFG用2条并行路径提升性能,PARSCALE则将路径数量扩展为P条(如P=8),并通过可学习的输入变换和动态聚合,使并行计算成为一种可扩展的 “计算缩放” 范式。下图展示了PARSCALE方法。

PARSCALE改进的并行计算框架

1、输入层:可学习的多路径输入变换

核心改进是将CFG的固定双路径扩展为P条可学习的并行路径,每条路径通过可训练的前缀嵌入生成差异化输入。

前缀嵌入生成:为每个并行路径引入可训练的前缀向量(维度与输入嵌入一致),拼接在原始输入前,形成路径专属输入。KV缓存区分:在Transformer的注意力层中,不同路径的键(K)和值(V)缓存相互独立,确保各路径的计算互不打扰,增强输出多样性。

2、计算层:并行前向传播

并行执行:将P个差异化输入同时输入模型,利用GPU的并行计算能力,一次性完成P路前向传播,生成P个输出流。效率优势:通过批量矩阵运算实现P路并行,计算效率随P线性增长,共享模型主体参数,仅增加前缀嵌入等少量可训练参数。

3、输出层:动态加权聚合

通过多层感知机(MLP)动态计算各路径输出的聚合权重,替代 CFG 的固定权重机制:若某路径输出与当前输入语义匹配度高,MLP 会为其分配更高权重。

PARSCALE更高效

PARSCALE vs. 参数扩展

当P=8时,1.6B参数模型在HumanEval的性能(Pass@1=39.1%)接近4.4B参数模型(Pass@1=45.4%),但内存占用仅为后者的1/22,延迟增加量为1/6。

在GSM8K数学推理任务中,P=8使1.8B模型性能提升34%(相对基准),显著高于参数扩展的增益。

两阶段训练策略

阶段1:用传统方法预训练模型至收敛(1Ttokens)。

阶段2:冻结主体参数,仅训练前缀嵌入和聚合权重(20Btokens,占总数据的 2%)。

P=8模型在GSM8K上提升34%,且与从头训练效果相当,证明少量数据即可激活并行路径的有效性。且该策略使训练成本降低约 98%

适配现有模型

研究团队在Qwen-2.5-3B模型上进行持续预训练和参数高效微调(PEFT),仅调整前缀和聚合权重。

结果显示,在代码生成任务(HumanEval+)中PEFT 方法使Pass@1提升15%,且冻结主体参数时仍有效,证明动态调整 P 的可行性。

PARSCALE通过可学习的多路径输入、动态聚合权重、全流程并行优化,将CFG的 “双路径启发” 升级为一种通用的计算缩放范式。

感兴趣的朋友可到官方查看更多细节~

论文链接:https://arxiv.org/abs/2505.10475代码地址:https://github.com/QwenLM/ParScale参考链接:https://x.com/iScienceLuvr/status/1923262107845525660

— 完 —

 时事1:军人被绑就连生殖被榨精

  06月04日,突发!俄罗斯圣彼得堡一仓库起火 过火面积达7万平方米,

  2.爱护学校的公共设施,不踩踏草坪,不随地扔纸张、塑料袋等各类垃圾。

,人与禽性动交ⅩXXX。

  06月04日,学古诗、包饺子、共植树 中美青少年互学互鉴传承友谊赏世遗风光 千余名选手贵州施秉云台山越野竞速,

  “阿蛮是一个好姐姐,很善良,也很漂亮,常给我讲故事,人可好了。”小石昊眨着大眼,很纯真的说道。

,云韵被爆❌3D在线观看,H+晨勃+憋尿+硬了+嗯啊,学校女厕偷拍拉屎㊙️网站。

 时事2:扒开狂揉难受公交车欧美

  06月04日,第六届“翱翔贵州”滑翔伞首站赛事落幕,

  毛球比划,那意思像是说,给你补身体。事实上是,它自己的口水已经哗哗地了,都落在了独角兽的背上。

第六十六章 超凡,AsianeseOLDMANp4Jizz老头,朋友人妻系列150合集,亚洲同志老头GAYXXXXXTV。

  06月04日,加拿大卡尔加里举行国际中文日活动,

  “对呀,以后我们石村将会有飞空的战禽了,这可是太古魔禽后裔的三枚卵啊!”

,欧美∨iboss,比基尼男裤 洗澡,裸体美女扒开粉嫩小泬A片心不放。

 时事3:白丝校花露🐻吃男人🍌

  06月04日,(乡村行·看振兴)江西高安:做好腐竹产业文章 走好产业振兴之路,

  “走了,去森林公园赛车去!”妈妈忙喊我“慢点、慢点,骑不太好,要注意安全”。我们呼朋唤友得出发了。森林公园真美呀!各种花草迎接不暇,池塘中的荷花挨挨挤挤的。前来观赏的游人一群群的。我们没太在意人群的走动,开始在弯弯崎崎的小路上飚车。只听风在我耳边呼呼的叫着,路边的花草和人流一闪而过。

,《3D❌初音未来爆出乳液》,成➕人➕网站➕免费孕妇,男人入母狗水门图片。

  06月04日,看图学习丨把邓小平同志开创的事业继续推向前进 总书记提出明确要求,

  山地上,金色的骨剪流动蒙蒙宝辉,神秘而又强大,横在乱石间,有一种让人心悸的力量在释放。

,桃味cc改名后怎么没有了,qos♠媚黑人妻,免费聊骚不充钱能一直聊的。

 时事4:国产老师破女学生处特级

  06月04日,2024腾冲科学家论坛—澜湄区域科技人文交流系列活动在云南举办,

  而小不点就是要在这样的蛮荒中横穿三十万里,可以说一路上将有无尽艰难险阻,随时都会丧命。

,憨憨倩在哪里卖,张元英被财阀爆炒的视频,女军妓女一级毛片视频下载软件。

  06月04日,冰岛一火山喷发 中国驻冰岛大使馆提醒在冰中国公民注意防范,

  近年来,地委认真贯彻党的xx大精神和自治某地党委六届四次、六次全委(扩大)会议精神,正确处理改革、发展和稳定的关系,结合地某地实际,着眼长远,立足当前,确定了全面建设小康社会,推进地某地超常规跨跃式发展的奋斗目标。刚刚召开的地委委员(扩大)会议按照xx届三中全会精神和自治某地党委的部署要求,进一步提升和完善了今后改革与发展的阶段性思路、目标和措施,明确了今年经济工作的总体要求、主要任务和关键性措施。认真贯彻和落实好这些重大思路和举措是当前乃至今后一个时期地某地各级党委压倒一切的中心任务,需要各级党委团结带领全地某地广大干部群众做出艰苦不懈的努力。

,50岁岳伦和岳伦最后怎么了,美女光溜溜图片视频素材大全无水印,Japan HD XXXX Videos 100。

责编:杨勇刚

审核:艾米·尼达姆

责编:郭文才

相关推荐 换一换