亚洲欧美在线视频_欧美日韩国产影片_又紧又大又爽精品一区二区_欧美精品一区二区三区一线天视频 _视频一区视频二区中文字幕_久久99在线观看_欧美日韩dvd在线观看_亚洲一区二区三区三_国产高清亚洲一区_精品无人区卡一卡二卡三乱码免费卡_九一久久久久久_91老司机福利 在线_欧美一区二区三区视频免费_3d成人h动漫网站入口_欧美在线不卡一区_国产成人免费视频一区

登錄
首頁 > 智駕游記 > 全新MoE架構!阿里開源Qwen3-Next,訓練成本直降9成

全新MoE架構!阿里開源Qwen3-Next,訓練成本直降9成

發布時間:2025-09-13 12:22:00
訓練、推理性價比創新高。

大語言模型(LLM),正在進入 Next Level。

周五凌晨,阿里通義團隊正式發布、開源了下一代基礎模型架構 Qwen3-Next??倕?80B 的模型僅激活 3B ,性能就可媲美千問 3 旗艦版 235B 模型,也超越了 Gemini-2.5-Flash-Thinking,實現了模型計算效率的重大突破。

新模型立即在 Qwen.ai 上線,并上傳了 HuggingFace。

  • 新模型網頁版:https://chat.qwen.ai/
  • HuggingFace:https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d
  • Kaggle:https://www.kaggle.com/models/qwen-lm/qwen3-next-80b

Qwen3-Next 針對大模型在上下文長度擴展(Context Length Scaling)和參數量擴展(Total Parameter Scaling)的未來趨勢而設計。通義團隊表示,其模型結構相較 4 月底推出的 Qwen3 的 MoE 模型新增了多種技術并進行了核心改進,包括混合注意力機制、高稀疏度 MoE 結構、一系列提升訓練穩定性的優化,以及提升推理效率的多 token 預測(MTP)機制等。

模型結構示意圖:

通義團隊介紹了新架構使用的一些機制。

  • 混合架構:Gated DeltaNet + Gated Attention

線性注意力打破了標準注意力的二次復雜度,在處理長上下文時有著更高的效率。通義團隊發現,單純使用線性注意力或標準注意力均存在局限:前者在長序列建模上效率高但召回能力弱,后者計算開銷大、推理不友好。

通過系統實驗,人們發現 Gated DeltaNet 相比常用的滑動窗口注意力(Sliding Window Attention)和 Mamba2 有更強的上下文學習(in-context learning)能力,并在 3:1 的混合比例(即 75% 層使用 Gated DeltaNet,25% 層保留標準注意力)下能一致超過超越單一架構,實現性能與效率的雙重優化。

在保留的標準注意力中,通義進一步引入多項增強設計:

(1)沿用先前工作中的輸出門控機制,緩解注意力中的低秩問題;

(2)將單個注意力頭維度從 128 擴展至 256;

(3)僅對注意力頭前 25% 的位置維度添加旋轉位置編碼,提高長度外推效果。

  • 極致稀疏 MoE:僅激活 3.7% 參數

Qwen3-Next 采用了高稀疏度的 Mixture-of-Experts (MoE) 架構,總參數量達 80B,每次推理僅激活約 3B 參數。實驗表明,在使用全局負載均衡后,當激活專家固定時,持續增加專家總參數可帶來訓練 loss 的穩定下降。

相比 Qwen3 MoE 的 128 個總專家和 8 個路由專家,Qwen3-Next 擴展到了 512 總專家,10 路由專家與 1 共享專家的組合,在不犧牲效果的前提下最大化資源利用率。

  • 訓練穩定性友好設計

通義團隊發現, 注意力輸出門控機制能消除注意力池與極大激活等現象,保證模型各部分的數值穩定。Qwen3 采用了 QK-Norm,部分層的 norm weight 值會出現異常高的情況。為緩解這一現象,進一步提高模型的穩定性,通義在 Qwen3-Next 中采用了 Zero-Centered RMSNorm,并在此基礎上對 norm weight 施加 weight decay,以避免權重無界增長。

通義還在初始化時歸一化了 MoE router 的參數,確保每個 expert 在訓練早期都能被無偏地選中,減小初始化對實驗結果的擾動。

  • Multi-Token Prediction

Qwen3-Next 引入原生 Multi-Token Prediction (MTP) 機制,既得到了 Speculative Decoding 接受率較高的 MTP 模塊,又提升了主干本身的綜合性能。Qwen3-Next 還特別優化了 MTP 多步推理性能,通過訓練推理一致的多步訓練,進一步提高了實用場景下的 Speculative Decoding 接受率。

通義千問大模型負責人林俊旸在 X 上分享了新一代模型開發的細節。他表示團隊已經在混合模型和線性注意力機制上進行了大約一年的實驗。新的解決方案應該足夠穩定可靠,能夠應對超長上下文。

Gated DeltaNet 加混合是經過大量嘗試和錯誤才實現的,而 Gated Attention 的實現就像是免費的午餐,可以獲得額外好處。

得益于創新的混合模型架構,Qwen3-Next 在推理效率方面表現出顯著優勢。與 Qwen3-32B 相比,Qwen3-Next-80B-A3B 在預填充(prefill)階段展現出卓越的吞吐能力:在 4k tokens 的上下文長度下,吞吐量接近前者的七倍;當上下文長度超過 32k 時,吞吐提升更是達到十倍以上。

在解碼(decode)階段,該模型同樣表現優異 —— 在 4k 上下文下實現近四倍的吞吐提升,而在超過 32k 的長上下文場景中,仍能保持十倍以上的吞吐優勢。

基于 Qwen3-Next 的模型結構,通義團隊訓練了 Qwen3-Next-80B-A3B-Base 模型,該模型擁有 800 億參數(僅激活 30 億參數),實現了與 Qwen3-32B dense 模型相近甚至略好的性能,同時訓練成本(GPU hours) 僅為 Qwen3-32B 的十分之一不到,在 32k 以上的上下文下的推理吞吐則是 Qwen3-32B 的十倍以上,實現了極致的訓練和推理性價比。

通義團隊開源了 Qwen3-Next-80B-A3B 的指令(Insctruct)模型和推理(Thinking)兩款模型。新模型解決了混合注意力機制 + 高稀疏度 MoE 架構在強化學習訓練中長期存在的穩定性與效率難題,實現了 RL 訓練效率與最終效果的雙重提升。

在編程(LiveCodeBench v6)、人類偏好對齊 (Arena-Hard v2) 以及綜合性能力 (LiveBench) 評測中,Qwen3-Next-Instruct 表現甚至超過了千問的開源旗艦模型,并在包含通用知識(SuperGPQA)、數學推理(AIME25)等核心測評中全面超越了 SOTA 密集模型 Qwen3-32B;Qwen3-Next-Thinking 則全面超越了 Gemini2.5-Flash-Thinking,在數學推理 AIME25 評測中獲得了 87.8 分。而達到如此高水平的模型性能,僅需激活 Qwen3-Next 總參數 80B 中的 3B。

目前,Qwen3-Next 模型也已經在很多第三方平臺中上線。

使用新模型在 anycoder 中的 vibe coding 示例:

Copyright 2017-2025 新車測評網 版權所有  ICP備18049689號-30
亚洲欧美在线视频_欧美日韩国产影片_又紧又大又爽精品一区二区_欧美精品一区二区三区一线天视频 _视频一区视频二区中文字幕_久久99在线观看_欧美日韩dvd在线观看_亚洲一区二区三区三_国产高清亚洲一区_精品无人区卡一卡二卡三乱码免费卡_九一久久久久久_91老司机福利 在线_欧美一区二区三区视频免费_3d成人h动漫网站入口_欧美在线不卡一区_国产成人免费视频一区

        欧美三级网色| 91蜜桃网址入口| 亚洲综合另类小说| 综合网在线视频| 一区二区不卡在线播放| 亚洲在线成人精品| 午夜影视日本亚洲欧洲精品| 亚洲成人三级小说| 激情小说亚洲一区| 成人精品在线视频观看| av资源一区二区| 日韩在线观看电影完整版高清免费| 一本色道久久综合亚洲精品婷婷 | 天天av天天翘天天综合网色鬼国产| 日韩精品视频网站| 国产精一区二区三区| 91污在线观看| 色999日韩自偷自拍美女| 欧美综合一区二区| 亚洲精品一区二区三区精华液| 国产精品麻豆99久久久久久| 午夜精品免费在线| 成人精品一区二区三区四区| 久草精品电影| 欧美中文字幕一区| 久久久久久久久久久黄色| 亚洲男同性恋视频| 韩国一区二区三区| 国产精品久久久久久久天堂第1集| 日韩欧美一区二区在线观看 | 亚洲超碰97人人做人人爱| 国内成人自拍视频| 99在线视频首页| 亚洲在线不卡| 久久久精品蜜桃| 天天影视色香欲综合网老头| 成人精品gif动图一区| 欧美在线一二三区| 日韩一区二区电影| 一片黄亚洲嫩模| 成人高清视频在线观看| 欧美精品一区二区视频| 91麻豆精品国产91久久久使用方法| 国产精品视频一二| 国产又黄又大久久| 日本高清视频一区二区三区| 日韩一区二区三区电影在线观看| 亚洲美女免费视频| 不卡在线观看av| 色八戒一区二区三区| 欧美国产日韩一二三区| 裸体在线国模精品偷拍| 国产一区二区不卡视频在线观看 | 亚洲图片欧美激情| 国产精品资源网| 亚洲人成网站在线播放2019| 久久久www免费人成精品| 奇米888四色在线精品| 精品蜜桃一区二区三区| 日韩欧美色综合| 日韩电影网1区2区| 狠狠色综合欧美激情| 欧美v日韩v国产v| 免费观看91视频大全| 欧美日产一区二区三区在线观看| 日韩欧美不卡在线观看视频| 日韩电影免费在线| 欧美一二三区| 中文字幕视频一区| 91在线高清观看| 在线电影欧美成精品| 亚洲高清视频在线| 韩国成人一区| 国产调教视频一区| 成人免费看黄yyy456| 在线观看国产91| 亚洲成a人v欧美综合天堂| 国产三级精品在线不卡| 欧美精品一区二区三区视频| 久久av中文字幕片| 伊人久久av导航| 亚洲综合色在线| 久久国产一区二区| 欧美激情自拍偷拍| 99re这里只有精品首页| 日韩一级高清毛片| 国产精品69毛片高清亚洲| 91极品视觉盛宴| 日韩电影在线观看一区| 一区二区视频在线播放| 亚洲综合久久av| 日本欧美色综合网站免费| 亚洲精品中文在线影院| 久久影视中文粉嫩av| 亚洲国产精品t66y| 丁香五月网久久综合| 国产校园另类小说区| 99麻豆久久久国产精品免费优播| 日韩一区二区三区免费观看| 国产91综合一区在线观看| 欧美一激情一区二区三区| 国产成人在线影院| 日韩三级电影网址| 99久久精品免费看国产| 久久综合五月天婷婷伊人| 99精品视频在线观看| 久久综合九色综合久久久精品综合| 成人激情小说乱人伦| 久久综合色8888| 国产一区二区无遮挡| 中文字幕国产一区| 久久精品人成| 亚洲成人久久影院| 欧洲精品中文字幕| 国产美女久久久久| 日韩一区二区三区视频| 91欧美一区二区| 国产精品盗摄一区二区三区| 久久久久久久久一区| 亚洲一区在线观看网站| 亚洲综合欧美日韩| 久久精品久久精品| 日韩欧美在线综合网| 91美女片黄在线观看| 国产视频一区二区在线观看| 国产精品xxxx| 亚洲一区二区精品视频| 在线观看国产日韩| 成人av手机在线观看| 国产精品蜜臀在线观看| 日本一区二区三区视频在线播放 | 欧美高清一级片在线| 99久久综合99久久综合网站| 一区免费观看视频| 伊人久久大香线蕉成人综合网| 国产一区二区三区免费观看| 精品久久久久久综合日本欧美| 国产日韩欧美一区二区三区四区| 视频一区二区三区入口| 宅男噜噜噜66一区二区66| 成人三级视频在线观看一区二区| 一区二区三区美女视频| 欧美视频在线一区二区三区| 91免费观看在线| 日韩影院精彩在线| 精品国产一区久久| 欧美一区二区视频17c| 韩国v欧美v日本v亚洲v| 欧美激情中文字幕一区二区| 亚洲免费视频一区| av一本久道久久综合久久鬼色| 中文字幕日本乱码精品影院| 欧美男人的天堂一二区| 国内成+人亚洲| 精久久久久久久久久久| 国产精品色哟哟网站| 欧美无人高清视频在线观看| 国产精品视频在线免费观看| 九色综合国产一区二区三区| 国产精品福利一区二区三区| 欧美精品色综合| 日韩精品欧美一区二区三区| 成人黄色小视频| 日本亚洲天堂网| 亚洲欧洲成人自拍| 日韩三级精品电影久久久| 婷婷亚洲婷婷综合色香五月| 91网站最新网址| 久久99精品国产| 亚洲卡通欧美制服中文| 欧美tk—视频vk| 欧美在线你懂得| 免费国产在线精品一区二区三区| 成人午夜视频福利| 日本美女一区二区| 日韩一区在线播放| 欧美大片在线观看一区二区| 欧美性大战久久| 欧美系列一区| 国产精品久久久久久久久久久久午夜片| 国产一区福利在线| 日本美女视频一区二区| 亚洲美女淫视频| 欧美国产视频在线| 久久综合狠狠综合| 欧美一区二区三区免费视频| 日本韩国一区二区三区视频| 日韩av一区二区三区在线| 国产传媒欧美日韩| 99久久精品国产网站| 国产精品资源在线| 久久99久久99| 奇米影视7777精品一区二区| 亚洲午夜影视影院在线观看| 亚洲欧洲av色图| 中文字幕高清不卡| 国产日韩av一区| 久久―日本道色综合久久 | 亚洲最色的网站| 国产精品日产欧美久久久久|