欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

阿里云發布通義Qwen3

我是創始人李巖:很抱歉!給自己產品做個廣告,點擊進來看看。  

阿里云發布通義Qwen3-Next基礎模型架構并開源80B-A3B系列:改進混合注意力機制、高稀疏度MoE結構

9 月 12 日消息,阿里云通義團隊今日宣布推出其下一代基礎模型架構?Qwen3-Next,并開源了基于該架構的 Qwen3-Next-80B-A3B 系列模型(Instruct 與 Thinking)。

阿里云發布通義Qwen3

通義團隊表示,Context Length Scaling 和 Total Parameter Scaling 是未來大模型發展的兩大趨勢,為了進一步提升模型在長上下文和大規??倕迪碌挠柧毢屯评硇剩麄?a class='sowmlink' id='sheji' onmouseout='Fhidden()' onmouseover='Fpop(this)' target=_blank href='http://m.aykon.com.cn/channel/sheji.html'>設計了全新的 Qwen3-Next 的模型結構。

阿里云發布通義Qwen3

該結構相比 Qwen3 的 MoE 模型結構,進行了以下核心改進:混合注意力機制、高稀疏度 MoE 結構、一系列訓練穩定友好的優化,以及提升推理效率的多 token 預測機制。

基于 Qwen3-Next 的模型結構,通義團隊訓練了?Qwen3-Next-80B-A3B-Base?模型,該模型擁有 800 億參數(僅激活 30 億參數)、3B 激活的超稀疏 MoE 架構(512 專家,路由 10 個 + 1 共享),結合 Hybrid Attention(Gated DeltaNet + Gated Attention)與多 Token 預測(MTP)。

IT之家從官方獲悉,該 Base 模型實現了與 Qwen3-32B dense 模型相近甚至略好的性能,而它的訓練成本僅為 Qwen3-32B 的十分之一不到,在 32k 以上的上下文下的推理吞吐則是 Qwen3-32B 的十倍以上,實現了極致的訓練和推理性價比。

阿里云發布通義Qwen3

該模型原生支持 262K 上下文,官方稱可外推至約 101 萬 tokens。據介紹,Instruct 版在若干評測中接近 Qwen3-235B,Thinking 版在部分推理任務上超過 Gemini-2.5-Flash-Thinking。

據介紹,其突破點在于同時實現了大規模參數容量、低激活開銷、長上下文處理與并行推理加速,在同類架構中具有一定代表性。

模型權重已在 Hugging Face 以 Apache-2.0 許可發布,并可通過 Transformers、SGLang、vLLM 等框架部署;第三方平臺 OpenRouter 亦已上線。

【來源: IT之家

隨意打賞

提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 亚洲 欧美 日韩 综合 | 中文字幕最新在线 | 精品一区二区在线欧美日韩 | 国产成人精品久久综合 | 国产精品柳州莫菁身材四 | 亚州精品永久观看视频 | 狠狠色狠狠综合久久 | 欧美亚洲国产激情一区二区 | 亚洲综合色婷婷中文字幕 | 伊人久久精品 | 日韩欧美毛片免费观看视频 | 国产精品一区二区三 | 午夜三级做爰视频在线看 | 久久精品99香蕉国产 | 国产精品网站 夜色 | 色综合欧美亚洲另类久久 | 米奇777第四久久久99 | 国产成人不卡亚洲精品91 | 久草视频免费在线看 | 亚洲人成网站色7799在线观看 | 日日草夜夜草 | 99热这里只有精品6免费 | 亚洲综合日韩欧美一区二区三 | 九九视频免费精品视频免费 | 这里只有久久精品视频 | 久久99精品福利久久久 | 亚洲不卡一区二区三区在线 | 免费国产成人午夜在线观看 | 欧美高清一区二区三 | 日韩一区二区三区视频 | 免费一级特黄 欧美大片 | 亚洲另类网 | 久久黄色免费视频 | 九九热视 | 欧美一级在线播放 | 全免费a级毛片免费看视频免 | 香蕉爱爱视频 | 在线视频综合网 | 精品亚洲欧美高清不卡高清 | 国产激情在线视频 | 精品久久久久久中文字幕无碍 |