新智元报道
编辑:倾倾
【新智元导读】开源炸场!Qwen3-Next 80B,每次仅激活约3B;训练成本约1/10,32K以上长文本吞吐提升约10倍,原生256K。这才是开源最想看的答案。
AI狂飙,闭源大模型坚信「越大越强」、「大就是好」。
但一只80B的开源「小钢炮」却给了另一个答案:Qwen3-Next。
它用极稀疏MoE与混合注意力,把单次激活压到≈3B,训练成本约1/10、32K+长上下文、推理吞吐≈10×,在多项推理与长文场景逼近甚至反超闭源竞品。
小体量、低成本,却能硬刚巨头——这才是开源最想看的答案。
80B小体量,凭什么挑战235B巨头?
Qwen3-Next的混合架构。采用Gated DeltaNet+Gated Attention的混合注意力与高稀疏MoE,并通过zero-centered与weight-decayed LayerNorm等稳定化手段,提升大规模训练稳定性
极致稀疏MoE:512专家只激活3B
闭源大模型的常见逻辑是「越大越强」:参数从百亿到千亿一路狂飙,成本和门槛也被推到极高。
但Qwen3-Next给出了另一种答案——它只有80B总参数,却通过极致稀疏的MoE 架构,把「小体量」贯彻到了极致。
采用极稀疏MoE(1:50):512专家中每个token仅激活10个专家+1个共享专家,激活参数≈3B(约3.75%)
这种「按需激活」的设计,不仅让计算资源利用率最大化,也在官方评测中跑出了接近235B旗舰模型的表现。
Qwen3-Next-80B-A3B-Base在多项任务中表现超越32B,接近235B,展现出极高的性价比
Qwen3-Next用更小的规模,撕开了闭源巨头的防线,证明了「不是越大才越强」,而是越聪明才越强。
混合注意力:效率与召回的平衡
在注意力机制上,Qwen3-Next采用了75%Gated DeltaNet+25%标准Attention的混合方案。
前者负责提升长文本处理的效率,后者保证全局信息的召回,再加上输出门控和部分旋转位置编码,既能处理超长上下文,又能维持强大的in-context学习能力。
这套设计让它在复杂推理任务中,不仅超过了自家更高成本的30B、32B模型,还在多个基准测试中超越了闭源Gemini-2.5-Flash-Thinking。
更让人惊讶的是,部分关键指标已经接近Qwen3-235B-Thinking,尤其在256k超长上下文场景下,优势被进一步放大,成为开源阵营少见的「长文推理利器」。
稳定性优化:不怕大规模训练翻车
稀疏架构的难题一直是训练不稳。
Qwen3-Next在这一点上做了多重改造:
采用zero-centered与weight-decayed LayerNorm等稳定化手段,并在MoE Router上做归一化与初始化改进,保证高稀疏与RL后训阶段的稳态收敛。
在MoE router初始化时进行归一化,让各个专家在早期训练阶段就能公平参与。
结果是,模型在scaling up时依然能稳步收敛。
省钱更省心:效率才是杀手锏
Qwen3-Next并不是靠堆算力取胜。
它只使用了Qwen3语料的15T tokens子集,训练所需GPU资源甚至不到Qwen3-32B的9.3%。
在4K场景也有可观提升,而在 32K+ 长上下文下提升最为显著(约10×)。
训练更省,推理更快,这让「性价比」三个字,不再是宣传口号,而是能落到实处的硬指标。
原生MTP:快得有理由
效率的提升并不是凭空出现。
Qwen3-Next把Multi-Token Prediction原生集成进模型主干,一次前向就能预测多个token。
再结合多步一致训练,大幅提升了speculative decoding的接受率。
这意味着模型不仅能生成得更快,而且在长文本场景下依旧保持稳定。
换句话说,速度背后有机制,性能提升也能持久复现。
后训练见真章:Instruct与Thinking双线作战
如果说Base模型证明了Qwen3-Next的基本实力,那么Instruct和Thinking模型则展示了它在后训练阶段的全面爆发。
在Instruct模型上,Qwen3-Next-80B-A3B-Instruct的表现已经逼近Qwen3-235B Instruct,在部分任务上甚至反超。
无论是SuperGPQA、AIME25,还是Arena-Hard v2,都能看到80B模型与235B旗鼓相当,明显领先于Qwen3-30B、32B系列。
在对于长文本处理的对比下尤为突出,在RULER测试的256k上下文范围内,它甚至超过了235B,验证了混合架构在超长场景下的优势。
而在Thinking模型上,Qwen3-Next-80B-A3B-Thinking的突破更为亮眼。
在复杂推理任务中,不仅优于自家更高成本的30B、32B模型,Thinking版在多个基准上超过Gemini-2.5-Flash-Thinking:例如 IME25 87.8 vs 72.0、HMMT25 73.9 vs 64.2、LiveBench 76.6 vs 74.3、LiveCodeBench v6 68.7 vs 61.2、Arena-Hard v2 62.3 vs 56.7。
换句话说,开源社区第一次在推理能力上真正追上了闭源巨头,并在部分场景中完成了反超。
官方在X的发布中也给出了核心口径:80B总参但单token仅激活3B;训练约10×更省、在32K+上下文推理约10×更快。
长文稳定、综合均衡,网友:真香!
如果说Qwen3-Next的骨骼是极稀疏MoE与混合注意力,那它的「肌肉」就体现在长文本和综合基准里的硬指标。
原生256K的上下文不是纸面参数,在官方RULER测试中,Qwen3-Next-80B-A3B-Instruct在256K点位拿到约93.5%的准确率,全区间平均约91.8%。
也就是说,它不仅能「装下」超长材料,还能在长度翻倍之后依然保持理解力和稳定性,不是那种越长越糊的模型。
再看综合能力。放进自家旗舰和竞品横向比,Qwen3-Next给出的答卷同样惊喜:在Arena-Hard v2里拿到82.7分,已经和235B旗舰处于同一梯队;
在LiveBench这样的综合评测上,它更是以75.8的成绩追平甚至略超235B。
在LiveCodeBench v6上,它干脆以小博大,80B模型的56.6分超过了235B的51.8。
当然,在更吃知识冗余的数学/常识任务上,它与235B仍有半步差距,但考虑到成本对比,这已是一笔「稳赚」的交换。
除了官方成绩单,社区也有第一波体验者。
有网友实测发现,Qwen3-Next在生成长文时,版式会有一定波动,同一个prompt多次跑出的页面排版不尽相同,需要靠更严格的提示去约束稳定性;
在处理长代码时表现强势,一次性能吐出上千行逻辑,但在「整理网页信息」这样的场景里,模型偶尔会「偷懒」,直接把片段抄过来而不是生成完整逻辑。
尽管如此,这位网友最后还是下了结论
100B以内的模型已经够打,等到A100B+级别的新版本量产,会更值得期待。
百万Token之外,还有Qwen3.5
Qwen3-Next 并不是终点。
它原生支持26万token的上下文,在实际测试中,通过YaRN技术已经可以稳定扩展到百万级。
这意味着,无论是整本书的理解,还是跨月的长周期对话,都已经不再是实验室里的概念,而是真正可落地的能力。
更重要的是,团队已经在筹备Qwen3.5。
在Qwen3-Next打下的架构基础上,未来的版本将进一步强化智能水平和生产力表现。
对研究者和开发者来说,这不仅是一代模型的更新,更是开源社区与闭源巨头竞争的加速信号。
从80B小体量撕开235B的防线,到百万级上下文的突破,再到即将到来的Qwen3.5,Qwen系列正在不断刷新行业对性价比和可能性的认知。
参考资料:
https://mp.weixin.qq.com/s/STsWFuEkaoUa8J8v_uDhag
https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Instruct
https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Thinking
https://www.reddit.com/r/LocalLLaMA/comments/1nefmzr/qwen_released_qwen3next80ba3b_the_future_of/
https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&from=research.latest-advancements-list
https://x.com/Alibaba_Qwen/status/1966197643904000262
《贵妇好紧好大沈青》,《w3u7903ejky2ywls》大西瓜av
“爽⋯好大⋯快⋯深点自慰大学”
怎么调小狗男人性格
……
09月16日
“脱👙让学生🐻在线观看下载”高校发讣告悼念梅大高速遇难学子
↓↓↓
09月16日,艺考之路,嗯~啊~快点🌿死我网站国版,火影忍者同人漫画,人妖下半身㊙️裸体视频,㊙️成人秘密在线观看
09月16日,俄国防部:24小时内击落194架!,女初高中打光屁股♥网站×,女同69XXXⅩ18HD自慰,动漫爆乳3d扶她小舞,赵露思裸被❌视频
09月16日,“巴黎锌屋顶工匠与装饰工匠技艺”列入人类非物质文化遗产代表作名录,68中国XXXXXXXXX57,绝区零❌狂揉❌难受,触手钻进双腿间疯狂宫交H漫画,疯狂❌自慰喷水大声
09月16日|亿缕阳光|童年最甜|王牌竞速的人物拔萝卜|funny榨精肌肉Gay龙男同|百变小晨被❌脱脱内内做运动|Free❌❌❌性欧美AV按摩
09月16日|中外专家聚喀什 共研新疆历史与多元文化|成人福利app导航㊙️网站推特|沙奈朵被拔萝卜|free❌❌❌麻豆video|男男十八禁啪啪网站小蓝
09月16日|澳大利亚一轻型飞机坠毁 两人重伤|碧琪公主角色扮演游戏|樱桃免费版在线观看电视剧荣耀|男男GAY无套✅免费视频|米塔被❌吸乳羞羞图片……
09月16日,医疗器械蓝皮书:中国创新医疗器械将迎来更大发展,美女㊙️全身裸体视频,杨幂被❌无码视频在线观看,未成满18禁止免费❤电影,18禁動🍆🍑12XXX视频
09月16日,香港庙街夜市开业足月人气不减 商会研开辟手信街,扒开❌,肉丝❌❌爆乳❌❌,416H色高潮图,原神十八禁🔞打屁股🍑
09月16日|天津港开通直航东南亚海运航线|女生脱👙r让男生揉🐻小说|扶住殷素素翘臀挺进去小说|山城恋被❌吸乳❌羞羞|亚洲㊙️av无码一区动漫
09月16日,民进会员共议长三角绿色发展如何谋“新”,动漫人物又莄爽视频,色情性黄❌片做运动视频吸乳头,老师让我她我爽了一夜作文,神奇宝贝婬乱版高H
09月16日,混团世界杯韩国队小组头名晋级 田志希:目标是享受成都比赛时间,亚洲AV精品️一区二区三区,美女放屁无遮挡㊙️网站,YY4480青苹果影院视,和女胥做爰过程全过程
09月16日,国家游泳中心推出“龙耀水立方”新春系列活动,鞠婧祎被❌到喷水,欧美极品少妇XXXXⅩOxoo,新妺妺窝窝777777野外,欧美大屁股眼子XXXXX视频
09月16日|日本将开启第八轮核污染水排海 排放量约7800吨|星野和光头原视频制作教程|裸体❌自慰杨颖18|甘雨疯狂❌喷水自慰爽18禁|周妍希裸体㊙️裸体露屁屁
09月16日|Space One 宇宙荣耀即将开战 一龙在香港迎战日本拳手|轻点~太深了~啊~进去了视频|美女❌狂揉脱脱内内水里|色情网18㊙️免费无码网站|杨幂裸乳被爆白浆换脸
09月16日|62年来首次 政府被议会推翻 法国总理5日将递交辞呈|✿爆乳女神✿▌麻酥酥▌玫瑰|同性男男黄G片免费网站18禁无码|奶好大灬灬好硬灬好爽灬无套视频|看国内外肥胖老妇女姓交视屏
上海视觉艺术学院被围殴男生自曝被休学,盘点那些过年待客的小妙招|港深两地青少年参访香港环保科技园区|小乔被c🔞黄㊙️动漫❌|男人露jiji秘免费网站推特|王雨纯裸体㊙️无遮挡胸视频|被爆🌿18禁止🚫视频
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺