威廉希尔WilliamHill·足球(中国)体育官方网站
搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

全新MoE架构!阿里开源Qwen3-Next,训练成本直降9成

2025-09-14 14:18:48
来源:

猫眼电影

作者:

比西巴格乡哈尼

手机查看

  猫眼电影记者 孙亮 报道w3u7903ejky2ywls

机器之心报道

编辑:泽南

训练、推理性价比创新高。

大语言模型(LLM),正在进入 Next Level。

周五凌晨,阿里通义团队正式发布、开源了下一代基础模型架构 Qwen3-Next。总参数 80B 的模型仅激活 3B ,性能就可媲美千问 3 旗舰版 235B 模型,也超越了 Gemini-2.5-Flash-Thinking,实现了模型计算效率的重大突破。

新模型立即在 Qwen.ai 上线,并上传了 HuggingFace。

新模型网页版:https://chat.qwen.ai/HuggingFace:https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9dKaggle:https://www.kaggle.com/models/qwen-lm/qwen3-next-80b

Qwen3-Next 针对大模型在上下文长度扩展(Context Length Scaling)和参数量扩展(Total Parameter Scaling)的未来趋势而设计。通义团队表示,其模型结构相较 4 月底推出的 Qwen3 的 MoE 模型新增了多种技术并进行了核心改进,包括混合注意力机制、高稀疏度 MoE 结构、一系列提升训练稳定性的优化,以及提升推理效率的多 token 预测(MTP)机制等。

模型结构示意图:

通义团队介绍了新架构使用的一些机制。

混合架构:Gated DeltaNet + Gated Attention

线性注意力打破了标准注意力的二次复杂度,在处理长上下文时有着更高的效率。通义团队发现,单纯使用线性注意力或标准注意力均存在局限:前者在长序列建模上效率高但召回能力弱,后者计算开销大、推理不友好。

通过系统实验,人们发现 Gated DeltaNet 相比常用的滑动窗口注意力(Sliding Window Attention)和 Mamba2 有更强的上下文学习(in-context learning)能力,并在 3:1 的混合比例(即 75% 层使用 Gated DeltaNet,25% 层保留标准注意力)下能一致超过超越单一架构,实现性能与效率的双重优化。

在保留的标准注意力中,通义进一步引入多项增强设计:

(1)沿用先前工作中的输出门控机制,缓解注意力中的低秩问题;

(2)将单个注意力头维度从 128 扩展至 256;

(3)仅对注意力头前 25% 的位置维度添加旋转位置编码,提高长度外推效果。

极致稀疏 MoE:仅激活 3.7% 参数

Qwen3-Next 采用了高稀疏度的 Mixture-of-Experts (MoE) 架构,总参数量达 80B,每次推理仅激活约 3B 参数。实验表明,在使用全局负载均衡后,当激活专家固定时,持续增加专家总参数可带来训练 loss 的稳定下降。

相比 Qwen3 MoE 的 128 个总专家和 8 个路由专家,Qwen3-Next 扩展到了 512 总专家,10 路由专家与 1 共享专家的组合,在不牺牲效果的前提下最大化资源利用率。

训练稳定性友好设计

通义团队发现, 注意力输出门控机制能消除注意力池与极大激活等现象,保证模型各部分的数值稳定。Qwen3 采用了 QK-Norm,部分层的 norm weight 值会出现异常高的情况。为缓解这一现象,进一步提高模型的稳定性,通义在 Qwen3-Next 中采用了 Zero-Centered RMSNorm,并在此基础上对 norm weight 施加 weight decay,以避免权重无界增长。

通义还在初始化时归一化了 MoE router 的参数,确保每个 expert 在训练早期都能被无偏地选中,减小初始化对实验结果的扰动。

Multi-Token Prediction

Qwen3-Next 引入原生 Multi-Token Prediction (MTP) 机制,既得到了 Speculative Decoding 接受率较高的 MTP 模块,又提升了主干本身的综合性能。Qwen3-Next 还特别优化了 MTP 多步推理性能,通过训练推理一致的多步训练,进一步提高了实用场景下的 Speculative Decoding 接受率。

通义千问大模型负责人林俊旸在 X 上分享了新一代模型开发的细节。他表示团队已经在混合模型和线性注意力机制上进行了大约一年的实验。新的解决方案应该足够稳定可靠,能够应对超长上下文。

Gated DeltaNet 加混合是经过大量尝试和错误才实现的,而 Gated Attention 的实现就像是免费的午餐,可以获得额外好处。

得益于创新的混合模型架构,Qwen3-Next 在推理效率方面表现出显著优势。与 Qwen3-32B 相比,Qwen3-Next-80B-A3B 在预填充(prefill)阶段展现出卓越的吞吐能力:在 4k tokens 的上下文长度下,吞吐量接近前者的七倍;当上下文长度超过 32k 时,吞吐提升更是达到十倍以上。

在解码(decode)阶段,该模型同样表现优异 —— 在 4k 上下文下实现近四倍的吞吐提升,而在超过 32k 的长上下文场景中,仍能保持十倍以上的吞吐优势。

基于 Qwen3-Next 的模型结构,通义团队训练了 Qwen3-Next-80B-A3B-Base 模型,该模型拥有 800 亿参数(仅激活 30 亿参数),实现了与 Qwen3-32B dense 模型相近甚至略好的性能,同时训练成本(GPU hours) 仅为 Qwen3-32B 的十分之一不到,在 32k 以上的上下文下的推理吞吐则是 Qwen3-32B 的十倍以上,实现了极致的训练和推理性价比。

通义团队开源了 Qwen3-Next-80B-A3B 的指令(Insctruct)模型和推理(Thinking)两款模型。新模型解决了混合注意力机制 + 高稀疏度 MoE 架构在强化学习训练中长期存在的稳定性与效率难题,实现了 RL 训练效率与最终效果的双重提升。

在编程(LiveCodeBench v6)、人类偏好对齐 (Arena-Hard v2) 以及综合性能力 (LiveBench) 评测中,Qwen3-Next-Instruct 表现甚至超过了千问的开源旗舰模型,并在包含通用知识(SuperGPQA)、数学推理(AIME25)等核心测评中全面超越了 SOTA 密集模型 Qwen3-32B;Qwen3-Next-Thinking 则全面超越了 Gemini2.5-Flash-Thinking,在数学推理 AIME25 评测中获得了 87.8 分。而达到如此高水平的模型性能,仅需激活 Qwen3-Next 总参数 80B 中的 3B。

目前,Qwen3-Next 模型也已经在很多第三方平台中上线。

使用新模型在 anycoder 中的 vibe coding 示例:

 时事1:裸体无码婬片A片AAA毛片裸体

  09月14日,广东省省长王伟中:稳妥推进“粤车南下”,

  “吼……”大吼声惊天动地,它撞在了金色的大爪子上,电闪雷鸣,照亮了黑暗的天空,景象骇人。

,美女乖乖扒下小内裤。

  09月14日,印尼一医院爆炸致18人受伤 108名患者紧急转移,

  杭州有一图书馆对所有读者免费开放,因此也有乞丐或拾荒者进去阅览。他们要求是把手洗干净。有人不能忍受,找到馆长诸树青,说允许他们进入是对其他人的不尊重。而他回答道:“我无法拒绝他们入内读书,但您有权选择离开。”

,打屁股秘无内裤的网站,男男Gay✅直播网站,黄油游戏网站sstm.mo。

 时事2:色噜噜狠狠一区二区三区果冻

  09月14日,中国医疗高科技“出海”“一带一路”共建国家造福民众健康,

  群雄齐叫,对方这是在利用他们所有人的力量相助,而破开那层强大的光幕,攫取到至尊宝骨。

,汤不热vlog破解版免费版,霍雨浩×王秋的肉床话本小说,小🐔🐔戳🍑里。

  09月14日,国家发改委完善成品油管道运输价格形成机制,

  一个企业的发展与科技创新息息相关,无数事实证明任何一个企业只有高度重视“科技创新”,不断在企业中实科技施创新的手段,企业才会不断产生出新的经济增长点,展现新的面貌。

,雏田被鸣人扒开腿狂❌同人动漫,火影忍鸣人❌小樱,13禁🍆🍑🔞❌❌❌自慰。

 时事3:国产美女无套内谢

  09月14日,这个五一假期,游客“爆单”的天安门广场地区是怎么做到井然有序的?,

  4、在教室里,不准私拉电线,不得擅自使用电器设备。

,全家共用一妻苏苏免费阅读白狐,歪歪羞羞漫画在线观看免费,揉我奶啊岳乱。

  09月14日,外企观两会丨从政府工作报告中找到商机 外企加码上“新”,

  “不好,他这是要耗光我们的力量,而后击杀我们,催动祖器消耗实在太大了。”石云峰皱眉。

,国产⭕⭕⭕拗女|,丝袜老师踩我的🐔出精漫画,瑶穿短裙被c的下不了床。

 时事4:男生把困困放进女生的困困里视频

  09月14日,中国游泳队持续遭抹黑,一重要原因披露,

  “什么人?!”守山门、放哨的人大喝。

,玖辛暴❌自慰naruto,扒下女教师的内衣❌❌视频,爆乳身材尤物女神▌91。

  09月14日,(新春走基层)看演出、逛大集 重庆万州乡村年味别样浓,

  同志们,火灾猛如虎!我们经常会在电视、在媒体看到火灾危及人民生命财产安全的新闻报道,有些火灾甚至造成了重大人员伤亡的惨剧!所以我们要居安思危,一旦火灾真的发生,我们能否从容应对,及时撤离?!我们能否有效灭火,把灾害减到最小?!这就体现了消防安全的极端重要性。当然消防安全我认为主要还是要有消防的意识、消防的常识、消防的措施,特别是要有消防的能力!这次消防演练也主要围绕这些方面来进行,我觉得非常好!

,禁漫♥天堂♥H漫画催眠,国产白丝AV嫩草视频,阿部夏树电影免费观看正片。

责编:严规

审核:特里维勒

责编:张锐赵

相关推荐 换一换