近日,在OIF(開源基礎設施基金會)CFN(算力網絡)工作組會議上,中國移動研究院牽頭的異構混合訓練技術子組通過立項評審,并獲得OIF基金會及產業伙伴的高度關注與支持。
當前大模型訓練任務基于同構集群完成,隨著模型參數量劇增,存在兩大痛點問題,一是大規模集群與單廠商綁定存在技術棧封閉和供應鏈風險,二是已建異構智算資源間存在“資源墻”難以聚合成池,導致混合集群資源利用率較低。為充分利用異構算力資源,構建智算融通生態,中國移動研究院牽頭在OIF CFN工作組成立異構混合訓練技術子組。
去年,中國移動研究院針對該技術已發布智算“芯合”異構混合并行訓練系統1.0,其具備基于ITD算法的3D并行非均勻切分和基于GDR的異構芯片高速通信兩大能力,可突破異構智算芯片間算力孤島問題,實現大模型在多廠商、多代際、多類型的混合智算集群上的規模訓練。
此次中國移動研究院在OIF CFN工作組成立的異構混合訓練技術子組聚焦異構混合訓練框架進行代碼開源,旨在通過社區項目吸引智算產業上下游合作伙伴適配、共建面向多種類大模型及智算芯片的通用訓練框架,實現構建高效、高可用的大規模異構混合訓練技術能力。
異構混合訓練技術架構
未來,中國移動將通過開源力量,與產學研用各界合作伙伴一起,推動不同廠家、不同架構異構智能算力間形成通用的異構混合訓練框架,助力我國智算生態融通發展。
開源基礎設施基金會(OIF)由全球187個國家100,000余名社區成員組成,是當前全球最活躍的開源基金會之一,現已孵化OpenStack、Kata Container、StarlingX等成熟開源項目。2022年7月,中國移動研究院聯合國內外主流設備商、云服務商在開源基礎設施基金會(OIF)主導成立“Computing Force Network Working Group”(算力網絡工作組),旨在凝聚產業力量,打造算力網絡關鍵領域的參考實現,降低產業準入門檻,加速推動算力網絡技術與產品成熟。