威廉希尔WilliamHill·足球(中国)体育官方网站

首页 >新闻 >社会新闻

一刀砍掉90%训练成本！Qwen3-Next用1_10算力练成「长文推理利器」

2025-09-16 00:44:00

来源：

猫眼电影

作者：

雷昭

手机查看

　　猫眼电影记者贾伦德拉报道w3u7903ejky2ywls

新智元报道

编辑：倾倾

【新智元导读】开源炸场！Qwen3-Next 80B，每次仅激活约3B；训练成本约1/10，32K以上长文本吞吐提升约10倍，原生256K。这才是开源最想看的答案。

AI狂飙，闭源大模型坚信「越大越强」、「大就是好」。

但一只80B的开源「小钢炮」却给了另一个答案：Qwen3-Next。

它用极稀疏MoE与混合注意力，把单次激活压到≈3B，训练成本约1/10、32K+长上下文、推理吞吐≈10×，在多项推理与长文场景逼近甚至反超闭源竞品。

小体量、低成本，却能硬刚巨头——这才是开源最想看的答案。

80B小体量，凭什么挑战235B巨头？

Qwen3-Next的混合架构。采用Gated DeltaNet+Gated Attention的混合注意力与高稀疏MoE，并通过zero-centered与weight-decayed LayerNorm等稳定化手段，提升大规模训练稳定性

极致稀疏MoE：512专家只激活3B

闭源大模型的常见逻辑是「越大越强」：参数从百亿到千亿一路狂飙，成本和门槛也被推到极高。

但Qwen3-Next给出了另一种答案——它只有80B总参数，却通过极致稀疏的MoE 架构，把「小体量」贯彻到了极致。

采用极稀疏MoE（1:50）：512专家中每个token仅激活10个专家+1个共享专家，激活参数≈3B（约3.75%）

这种「按需激活」的设计，不仅让计算资源利用率最大化，也在官方评测中跑出了接近235B旗舰模型的表现。

Qwen3-Next-80B-A3B-Base在多项任务中表现超越32B，接近235B，展现出极高的性价比

Qwen3-Next用更小的规模，撕开了闭源巨头的防线，证明了「不是越大才越强」，而是越聪明才越强。

混合注意力：效率与召回的平衡

在注意力机制上，Qwen3-Next采用了75%Gated DeltaNet+25%标准Attention的混合方案。

前者负责提升长文本处理的效率，后者保证全局信息的召回，再加上输出门控和部分旋转位置编码，既能处理超长上下文，又能维持强大的in-context学习能力。

这套设计让它在复杂推理任务中，不仅超过了自家更高成本的30B、32B模型，还在多个基准测试中超越了闭源Gemini-2.5-Flash-Thinking。

更让人惊讶的是，部分关键指标已经接近Qwen3-235B-Thinking，尤其在256k超长上下文场景下，优势被进一步放大，成为开源阵营少见的「长文推理利器」。

稳定性优化：不怕大规模训练翻车

稀疏架构的难题一直是训练不稳。

Qwen3-Next在这一点上做了多重改造：

采用zero-centered与weight-decayed LayerNorm等稳定化手段，并在MoE Router上做归一化与初始化改进，保证高稀疏与RL后训阶段的稳态收敛。

在MoE router初始化时进行归一化，让各个专家在早期训练阶段就能公平参与。

结果是，模型在scaling up时依然能稳步收敛。

省钱更省心：效率才是杀手锏

Qwen3-Next并不是靠堆算力取胜。

它只使用了Qwen3语料的15T tokens子集，训练所需GPU资源甚至不到Qwen3-32B的9.3%。

在4K场景也有可观提升，而在 32K+ 长上下文下提升最为显著（约10×）。

训练更省，推理更快，这让「性价比」三个字，不再是宣传口号，而是能落到实处的硬指标。

原生MTP：快得有理由

效率的提升并不是凭空出现。

Qwen3-Next把Multi-Token Prediction原生集成进模型主干，一次前向就能预测多个token。

再结合多步一致训练，大幅提升了speculative decoding的接受率。

这意味着模型不仅能生成得更快，而且在长文本场景下依旧保持稳定。

换句话说，速度背后有机制，性能提升也能持久复现。

后训练见真章：Instruct与Thinking双线作战

如果说Base模型证明了Qwen3-Next的基本实力，那么Instruct和Thinking模型则展示了它在后训练阶段的全面爆发。

在Instruct模型上，Qwen3-Next-80B-A3B-Instruct的表现已经逼近Qwen3-235B Instruct，在部分任务上甚至反超。

无论是SuperGPQA、AIME25，还是Arena-Hard v2，都能看到80B模型与235B旗鼓相当，明显领先于Qwen3-30B、32B系列。

在对于长文本处理的对比下尤为突出，在RULER测试的256k上下文范围内，它甚至超过了235B，验证了混合架构在超长场景下的优势。

而在Thinking模型上，Qwen3-Next-80B-A3B-Thinking的突破更为亮眼。

在复杂推理任务中，不仅优于自家更高成本的30B、32B模型，Thinking版在多个基准上超过Gemini-2.5-Flash-Thinking：例如 IME25 87.8 vs 72.0、HMMT25 73.9 vs 64.2、LiveBench 76.6 vs 74.3、LiveCodeBench v6 68.7 vs 61.2、Arena-Hard v2 62.3 vs 56.7。

换句话说，开源社区第一次在推理能力上真正追上了闭源巨头，并在部分场景中完成了反超。

官方在X的发布中也给出了核心口径：80B总参但单token仅激活3B；训练约10×更省、在32K+上下文推理约10×更快。

长文稳定、综合均衡，网友：真香！

如果说Qwen3-Next的骨骼是极稀疏MoE与混合注意力，那它的「肌肉」就体现在长文本和综合基准里的硬指标。

原生256K的上下文不是纸面参数，在官方RULER测试中，Qwen3-Next-80B-A3B-Instruct在256K点位拿到约93.5%的准确率，全区间平均约91.8%。

也就是说，它不仅能「装下」超长材料，还能在长度翻倍之后依然保持理解力和稳定性，不是那种越长越糊的模型。

再看综合能力。放进自家旗舰和竞品横向比，Qwen3-Next给出的答卷同样惊喜：在Arena-Hard v2里拿到82.7分，已经和235B旗舰处于同一梯队；

在LiveBench这样的综合评测上，它更是以75.8的成绩追平甚至略超235B。

在LiveCodeBench v6上，它干脆以小博大，80B模型的56.6分超过了235B的51.8。

当然，在更吃知识冗余的数学/常识任务上，它与235B仍有半步差距，但考虑到成本对比，这已是一笔「稳赚」的交换。

除了官方成绩单，社区也有第一波体验者。

有网友实测发现，Qwen3-Next在生成长文时，版式会有一定波动，同一个prompt多次跑出的页面排版不尽相同，需要靠更严格的提示去约束稳定性；

在处理长代码时表现强势，一次性能吐出上千行逻辑，但在「整理网页信息」这样的场景里，模型偶尔会「偷懒」，直接把片段抄过来而不是生成完整逻辑。

尽管如此，这位网友最后还是下了结论

100B以内的模型已经够打，等到A100B+级别的新版本量产，会更值得期待。

百万Token之外，还有Qwen3.5

Qwen3-Next 并不是终点。

它原生支持26万token的上下文，在实际测试中，通过YaRN技术已经可以稳定扩展到百万级。

这意味着，无论是整本书的理解，还是跨月的长周期对话，都已经不再是实验室里的概念，而是真正可落地的能力。

更重要的是，团队已经在筹备Qwen3.5。

在Qwen3-Next打下的架构基础上，未来的版本将进一步强化智能水平和生产力表现。

对研究者和开发者来说，这不仅是一代模型的更新，更是开源社区与闭源巨头竞争的加速信号。

从80B小体量撕开235B的防线，到百万级上下文的突破，再到即将到来的Qwen3.5，Qwen系列正在不断刷新行业对性价比和可能性的认知。

参考资料：

https://mp.weixin.qq.com/s/STsWFuEkaoUa8J8v_uDhag

https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Instruct

https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Thinking

https://www.reddit.com/r/LocalLLaMA/comments/1nefmzr/qwen_released_qwen3next80ba3b_the_future_of/

https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&from=research.latest-advancements-list

https://x.com/Alibaba_Qwen/status/1966197643904000262

时事1：动漫学生裸体被❌歪歪漫画

09月16日,中国住建部谈保交房攻坚战目标：年底前交付396万套住房,

　　为了进一步弘扬正气，凝心聚力，庙下镇党委政府举办20xx年度镇村干部培训班。这是庙下镇党委政府的又一重大举措，这对营造“扬正气，树新风，蹲位担当为人民”的浓厚氛围，创造“干大事，创大业，科学发展铸辉煌”的工作局面必将起到积极的推动作用。我作为包乡领导完全赞同，大力支持，并衷心祝愿培训班取得圆满成功!

,3d动漫精品H区XXXXX区。

09月16日,（新春见闻）传统民俗迎新春北京小年庙会年味儿浓,

　　(二)学科专业建设方面有序推进

,美女脱了内衣内裤露出㊙️,井野被强❌漫画,三角洲麦晓雯被C黄本。

时事2：动漫脱裤子🔞小jij鼓起来

09月16日,2024湘台青年交流活动举行助力台青享发展机遇,

　　其中三对箭撞在一起，坠落在地，还有一支一米多长的粗大铁箭冲向小不点的咽喉，幽冷而慑人！

,黑土裸体❌开腿视频,香蕉成人A片视频,七八个变态用毛笔戳我尿孔。

09月16日,英雄联盟LPL春季赛揭幕新赛季新变化创造新看点,

　　“真有意思，是天然呆，还是故意的？”

,想当妈妈的小狗,男被❌c🐻黄扒衣服,18禁无遮挡▓挠男脚。

时事3：伽罗被❌娇喘流牛奶

09月16日,【社评】年轻人爱上传统文化，一场美好的双向奔赴,

　　对城区道路、桥梁、排水、检查井等基础设施及时排查、养护维修;严格道路开挖审查批准手续，严把道路开挖、恢复的质量关。积极开展小街巷的硬化和排水管网的维修改造，共硬化小街巷万平方米，铺设排水管网公里，建设加压泵站座，极大地改善了人居环境。

,校花被❌娇喘出奶视频在线观看,樱花味仙流白浆福利姬,,无码秘蜜桃一区二区。

09月16日,前三季度我国黄金消费量741.732吨同比下降11.18%,

　　小不点一声大喝，拍向冲在最前方的几人，符文扩散，手掌像是一下子放大到了磨盘大，砰砰声接连响起，凶寇一个一个的飞起，全都被打飞了出去。

,巨乳❌拔萝卜❌自慰免费,把🍆抻进🍎里🔞❌❌,守望先锋3D同人动画海外外网。

时事4：卡尔蜜拉之乱婬h侵犯小说

09月16日,广西统战力量建设长者食堂情暖隆安东安村乡亲,

　　石崖能有三百米高，小不点上来后，等待另外三人片刻，直到他们都冒出头来才一起向那巨巢走去。

,动漫❌爆乳❌动漫妓女水精英,小莫骚麦原唱歌曲mp3免费听,杨颖被c到高潮下不了床。

09月16日,时政微周刊丨总书记的一周（1月8日—1月14日）,

　　“太古年间，可以征战神明的睚眦、饕餮等，其后代也不过如此吧！在这片蛮荒中，一个小小的村落，怎么能出现这样一个可怕的孩子？！”凶寇中的大首领露出了恐惧的神色。

,莎莉娜扒开腿做❌同人,国产男男Gay体育网,黄金网站9.1入口。

【浙江去年国际货邮吞吐量增长49% 计划增5条国际航线】

【全国首个类脑算力开放平台在横琴上线】

责编：张小雷

审核：史海霞

责编：梁超仪