4月29日,通義千問團隊宣布推出Qwen3系列大語言模型,包含多個參數(shù)規(guī)模的密集模型(Dense)與混合專家模型(MoE),并全面開源。
該系列模型引入“思考模式”與“非思考模式”兩種思考模式,前者支持復(fù)雜問題分步推理,后者提供快速響應(yīng)。
在預(yù)訓(xùn)練方面,Qwen3的數(shù)據(jù)集相比Qwen2.5有了顯著擴展。Qwen2.5是在18萬億個 token上進行預(yù)訓(xùn)練的,而Qwen3使用的數(shù)據(jù)量幾乎是其兩倍,達到了約36萬億個 token,涵蓋了119種語言和方言。
此外,據(jù)官方介紹,通義千問開源了兩個MoE模型的權(quán)重:Qwen3-235B-A22B,一個擁有2350多億總參數(shù)和220多億激活參數(shù)的大模型,以及Qwen3-30B-A3B,一個擁有約300億總參數(shù)和30億激活參數(shù)的小型MoE模型。
六個Dense模型也已開源,包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B,均在Apache 2.0許可下開源。
據(jù)官方表示,旗艦?zāi)P?strong>Qwen3-235B-A22B在代碼、數(shù)學(xué)、通用能力等基準測試中,與 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro等頂級模型相比,表現(xiàn)出極具競爭力的結(jié)果。此外,小型MoE模型Qwen3-30B-A3B的激活參數(shù)數(shù)量是QwQ-32B的10%,表現(xiàn)更勝一籌,甚至像Qwen3-4B這樣的小模型也能匹敵Qwen2.5-72B-Instruct的性能。
技術(shù)細節(jié)方面,Qwen3采用四階段后訓(xùn)練流程,整合強化學(xué)習(xí)與指令微調(diào),增強模型推理及多任務(wù)處理能力。
團隊表示,未來計劃從多個維度提升模型,包括優(yōu)化模型架構(gòu)和訓(xùn)練方法,以實現(xiàn)幾個關(guān)鍵目標:擴展數(shù)據(jù)規(guī)模、增加模型大小、延長上下文長度、拓寬模態(tài)范圍,并利用環(huán)境反饋推進強化學(xué)習(xí)以進行長周期推理。