猫眼电影
猫眼电影记者 李宝珍 报道w3u7903ejky2ywls
闻乐 发自 凹非寺量子位 | 公众号 QbitAI
既能提升模型能力,又不显著增加内存和时间成本,LLM第三种Scaling Law被提出了。
对于1.6B模型,能实现性能接近4.4B模型,内存占用仅为后者的1/22,延迟增加量为1/6。
并且可直接应用于现有模型(如Qwen-2.5),无需从头训练。
这就是阿里通义团队提出的PARSCALE。
目前LLMs的优化主要有两种思路:参数扩展(如GPT-4)和推理时间扩展(如DeepSeek-R1),但会增加内存和时间成本。
阿里通义团队提出的新范式受CFG(无分类器引导)双路径推理机制的启发。
他们将CFG的并行思想从 “生成阶段的推理优化” 扩展为 “训练和推理全流程的「计算缩放」”。
让我们来扒一扒技术细节。
将CFG的并行思想扩展到计算缩放PARSCALE对于CFG双路径的灵感迁移
CFG 通过同时运行有条件生成(输入提示词)和无条件生成(不输入提示词)两条路径,再通过加权平均融合结果,提升生成质量(如文本相关性、图像细节精准度)。
其核心在于利用并行计算(两次前向传播)增强模型决策的多样性和准确性,而无需增加模型参数。
研究人员观察到CFG的有效性可能源于计算量的增加(两次前向传播),而非单纯的条件引导。
由此提出假设:并行计算的规模(如路径数量)可能是提升模型能力的关键因素,而非仅依赖参数规模或推理时间的串行扩展(如生成更多token)。
CFG用2条并行路径提升性能,PARSCALE则将路径数量扩展为P条(如P=8),并通过可学习的输入变换和动态聚合,使并行计算成为一种可扩展的 “计算缩放” 范式。下图展示了PARSCALE方法。
PARSCALE改进的并行计算框架
1、输入层:可学习的多路径输入变换
核心改进是将CFG的固定双路径扩展为P条可学习的并行路径,每条路径通过可训练的前缀嵌入生成差异化输入。
前缀嵌入生成:为每个并行路径引入可训练的前缀向量(维度与输入嵌入一致),拼接在原始输入前,形成路径专属输入。KV缓存区分:在Transformer的注意力层中,不同路径的键(K)和值(V)缓存相互独立,确保各路径的计算互不打扰,增强输出多样性。
2、计算层:并行前向传播
并行执行:将P个差异化输入同时输入模型,利用GPU的并行计算能力,一次性完成P路前向传播,生成P个输出流。效率优势:通过批量矩阵运算实现P路并行,计算效率随P线性增长,共享模型主体参数,仅增加前缀嵌入等少量可训练参数。
3、输出层:动态加权聚合
通过多层感知机(MLP)动态计算各路径输出的聚合权重,替代 CFG 的固定权重机制:若某路径输出与当前输入语义匹配度高,MLP 会为其分配更高权重。
PARSCALE更高效
PARSCALE vs. 参数扩展
当P=8时,1.6B参数模型在HumanEval的性能(Pass@1=39.1%)接近4.4B参数模型(Pass@1=45.4%),但内存占用仅为后者的1/22,延迟增加量为1/6。
在GSM8K数学推理任务中,P=8使1.8B模型性能提升34%(相对基准),显著高于参数扩展的增益。
两阶段训练策略
阶段1:用传统方法预训练模型至收敛(1Ttokens)。
阶段2:冻结主体参数,仅训练前缀嵌入和聚合权重(20Btokens,占总数据的 2%)。
P=8模型在GSM8K上提升34%,且与从头训练效果相当,证明少量数据即可激活并行路径的有效性。且该策略使训练成本降低约 98%
适配现有模型
研究团队在Qwen-2.5-3B模型上进行持续预训练和参数高效微调(PEFT),仅调整前缀和聚合权重。
结果显示,在代码生成任务(HumanEval+)中PEFT 方法使Pass@1提升15%,且冻结主体参数时仍有效,证明动态调整 P 的可行性。
PARSCALE通过可学习的多路径输入、动态聚合权重、全流程并行优化,将CFG的 “双路径启发” 升级为一种通用的计算缩放范式。
感兴趣的朋友可到官方查看更多细节~
论文链接:https://arxiv.org/abs/2505.10475代码地址:https://github.com/QwenLM/ParScale参考链接:https://x.com/iScienceLuvr/status/1923262107845525660
— 完 —
时事1:99在线无码精品㊙️一起草
05月31日,东西问丨荷兰青年建筑师和马町:于东西方之间探寻“天人合一”,
面对你们的离校,我们只能在心里默默祝福你们,希望你们记得母校这个给予了我们知识和希望的殿堂,希望你们能记得为了你们成才而辛勤耕耘的老师。希望你们记得,在校结下了深厚友谊,然而时光无情,离别的人是隐痛的,分别的情是伤感的,但是我们都明白;今天的分离是为了明天更加地相聚。
,汤姆维的色角。05月31日,【理响中国·实践新论】短文|告别“8亿件衬衫换1架飞机”,中国凭什么,
这一次,众人看的分明,这个可爱的孩子动用的果真是纯肉体的力量,并未掺杂宝术的秘力,就是那么横推了出去。然而,力道之强大,劲气之狂猛,令人咋舌,嗡隆一声将蛟鹏震退。
,PORNO中国XXXX18走爱,浴室里强做开腿呻吟的H漫画,白珊珊日B裸体视频。时事2:美女被强行扒开双腿被桶屁股
05月31日,高原蓝宝石——冬季青海湖的静谧之美, 6月13日9时,国家防总针对广西、福建启动防汛四级应急响应,派出两个工作组分赴广西、福建协助指导;新增针对河北、内蒙古启动抗旱四级应急响应,并继续维持针对河南、山东的抗旱四级应急响应,两个工作组正在两省协助指导。,yy4080院理❤论,av秘密㊙️入口一二三四五区,色情性黄❌片涩涩涩的视频网站。
05月31日,已知全球最大的恐爪龙类足迹现身,
1、不要独自一人外出游泳,更不要到不摸底和不知水情或比较危险且宜发生溺水伤亡事故的地方去游泳。选择好的游泳场所,对场所的环境,如该水库、浴场是否是卫生,水下是否是平坦,有无暗礁、暗流、杂草,水域的深浅等情况要了解清楚。
,小舞被爆❌AV羞羞视频,佐助吃醋小樱黑化文,女被❌c🐻黄扒衣服17。时事3:工棚嫖妓丰满老太HD
05月31日,新疆疏勒:智慧化预防接种门诊乡镇全覆盖,
他如果自己先回去,万一来了一头猛兽,以青鳞鹰现在这种状态必死无疑,根本就没有办法反抗。
,强奸轮奸虐待乱伦强暴留学生黑人老外黑鬼黑吊洋人,无码激情18🈲️激情视频,宋雨琦❌❌吸乳自慰动漫。05月31日,12支劲旅角逐巴西中企协公益足球赛,
下一个境界名为“洞天”,对于修行者来说,至关重要,在搬血境积累的越深厚,在这个境界爆发的越可怕。
,小蝌蚪视频🈚在线观看,欧美年轻男男videosbes,嗯嗯啊哈顶着孕肚进入。时事4:禁漫天堂❤A漫同人
05月31日,伊朗文物精华展亮相上博 呈现古波斯灿烂文明,
“他在干什么,为什么要破坏通道?”
,美女裸露双奶头捆绑sm挠脚心,美女免费㊙️免费看网站,老板娘乳头内裤摸。05月31日,在鲁台青:电竞让两岸青年交流更“来电”,
(二)齐抓共管,合力创建安全校园
,亚洲AV成人片在线观看2022,妲己乖乖掀起裙子让人C小说,霍雨浩狠狠地挺进冰帝小泬。责编:沃尔夫冈-施莱
审核:定克昌
责编:戴盔