哈爾濱,這座以“冰城”之名聞名遐邇的城市,憑借著豐富的冰雪資源和旅游資源成為“網紅”。而如今,它又憑借著得天獨厚的地理優勢,斬獲了一張嶄新的“名片”,昂首闊步地邁進了“算力一線城市”的行列。
8月30日,國內運營商最大單集群智算中心——中國移動智算中心(哈爾濱)建設完成并正式投產使用。單集群擁有超過1.8萬卡的豐富資源,可提供6.9EFLOPS(每秒690億億次浮點運算)智能算力。其規模之大、技術之先進,預示著一場關于算力與創新的革命即將上演。
智算中心的技術發展不斷推動著AI的邊界,高性能處理器、高速存儲、高吞吐低時延、高質效集成交付等都是智算中心技術創新的關鍵。中國移動研究院在智算萬卡集群關鍵技術攻關中,通過多項創新技術確保大模型運行的低時延、高帶寬數據處理和存儲能力;同時,通過自動化、數智化能力確保資源池的高效率高質量交付,這展現出中國移動在科技創新、產業引領等方面的強大實力。
為此,記者滿懷期待地走進中國移動(哈爾濱)數據中心,與參與萬卡集群項目建設的中國移動研究院、省公司等專業人士傾心交談,為讀者緩緩揭開中國移動智算中心(哈爾濱)萬卡集群技術創新那神秘的面紗,以及背后那些鮮為人知、扣人心弦的故事。
中國移動(哈爾濱)數據中心
兩個“100天”打造世界一流智算中心,呈國之大者風采
近兩年,火爆的生成式AI被許多人稱為“暴力美學”,在模型參數規模足夠大,訓練數據集足夠多,GPU卡數足夠多的情況下,模型將“涌現”出意想不到的能力。于是,建設一個萬卡規模且通用可擴展的智算中心,便成了時代的召喚。然而,這絕非易事。
從千卡到萬卡集群,絕非簡單的堆疊,其復雜度呈指數級增加。中國移動研究院網絡與IT技術研究所副所長唐華斌表示,在萬卡集群的構建過程中,一系列技術難題接踵而至。比如,怎樣在集群規模擴張的同時實現有效算力的同步線性提升?如何應對海量數據處理、超大規模互聯、集群高可用、高質效集成交付等艱巨挑戰?為攻克這些難關,團隊成員們日夜拼搏。
“工期緊、任務重、挑戰多”是參與中國移動智算中心(哈爾濱)超萬卡智算集群工程建設成員們最刻骨銘心的感受。從最初的規劃,到立項,再到最終交付,這一浩大工程僅用了令人驚嘆的“兩個100天”。工程現場負責人——中國移動黑龍江公司計劃建設部項目經理丁磊介紹,“項目團隊鎖定目標,努力拼搏、攻堅克難,“一個100天”完成萬卡配套達產;“一個100天”實現萬卡集群高效交付。提前4個月完成智算中心高質量投產。”
作為國內運營商最大單集群智算中心,哈爾濱智算中心在中國移動全國算力布局中無疑占據著至關重要的戰略地位,“作為關鍵的算力節點,能有效提升區域乃至全國的算力服務水平,哈爾濱智算中心作為國內首個基于國產技術棧建成的萬卡智算集群,在行業中具有非常重大的標桿意義。在此之前,智算規模大多在一萬卡以下,對于千億或者萬億模型訓練來說,仍會在一定程度上受限于底層的算力資源。哈爾濱1.8萬卡集群的建成和投入,將更有利于模型團隊充分利用底層資源,通過設施并行度更高的訓練策略,加快模型訓練的進度。
令人驚嘆的是,哈爾濱智算中心在國產芯片的使用上達到了規模最大的程度,堪稱國之大者的擔當體現。積極響應國家科技自主創新的號召,大力推動國產芯片在關鍵領域的應用,為國產芯片的發展提供了廣闊的舞臺。通過大規模使用國產芯片,不僅提升了智算中心的穩定性和安全性,更在全球科技競爭的格局中,彰顯了中國在科技領域自主創新的決心和實力。
“萬卡集群剛剛建成,為了確保上線后穩定高效運行,相關單位已經開展了多次溝通,并參考中國移動前期已建成運行的智算集群,以及業界大規模智算集群的運行經驗,從流程優化、資源保障、人才培養、工具研發等全方位著手準備。”中國移動黑龍江公司網絡管理部專家韓雪對記者娓娓道來。
智算中心機房
攻堅克難,科創鐵軍勇擔國之棟梁使命
中國移動研究院將支撐中國移動智算中心(哈爾濱)建設作為淬煉科技創新能力,鍛造求上進、素質高、能打仗、打勝仗的“四鐵”科創鐵軍的主戰場。組建了一支由算力網絡重大項目負責人段曉東牽頭,涵蓋老中青人才雁陣43人的智算攻關團隊,團隊中以研究院“青苗計劃”人員為代表的“90后”青年科研人員達到5人。智算攻堅項目既是研究院“青苗”科技人才“煉金計劃”的試金石,也是科研鐵軍大戰大考的大校場。在哈爾濱智算中心建設中,智算攻關團隊堅持黨建引領和黨建帶團建,開展“領題破題 合力攻堅”,組建黨員先鋒隊,實施團員“新兵連”培養模式,堅持以技術創新推動算網底座能力提升,提出了一系列獨具匠心的技術方案,多項創新成果得到應用。中國移動研究院智算攻關團隊在這次技術攻堅戰中展現出來的雄厚實力以及責任感和使命感為哈爾濱萬卡集群工程保駕護航。
面對萬卡集群建設的嚴峻技術性挑戰,中國移動研究院圍繞“新互聯、新算效、新存儲、新平臺、新節能”五大創新技術領域,展開了系統性重構,制定《中國移動NICC新型智算中心技術體系》。采用全調度以太網技術(GSE)實現網絡互聯的升級,協同CPU、GPU、DPU三大芯片實現算效范式優化,引入融合存儲技術支撐高效處理海量文件與對象數據。
據了解,哈爾濱萬卡集群是業內首個大規模應用融合存儲的集群,也是首個落地中國移動原創智算網絡全調度以太網(GSE1.0)的萬卡集群,并應用中國移動自研AUTO算網基礎設施自動化平臺實現萬卡集群自動化驗收的全量設備覆蓋。多個“首個”就像一面面鮮艷的旗幟,充分彰顯出中國移動的研發實力和技術優勢。
相比傳統的通用云數據中心,智算中心的存儲方案比較復雜,既要引入支持大模型訓練過程中高效數據交換的高性能文件存儲,又要引入對象存儲滿足外部數據交互需求。為了解決智算中心數據跨池拷貝造成的智能算力閑置和浪費的問題,中國移動研究院團隊推動在萬卡集群中使用高性能融合存儲技術。融合存儲,就是建設一套存儲系統,支持多種存儲協議互通,滿足多樣化的數據訪問需求。
中國移動研究院智算攻關團隊專家閆晗表示,融合存儲對于智算中心建設可以節省大量的存儲容量,而且避免數據在不同存儲系統之間無效流轉,用戶可通過對象協議上傳原始訓練數據集,AI訓練通過文件協議直接訪問,無需等待跨池數據拷貝,AI訓練各階段無縫銜接,對大模型訓練效率提升可達星期級。
萬卡集群不同服務器節點間頻繁地參數同步,網絡的性能成為關鍵。中國移動在哈爾濱萬卡集群首次正式應用GSE1.0,在現有以太網轉發機制上優化負載均衡和擁塞授權控制機制,從而大幅提升GPU節點間通信效率,將通信占比縮短20%。“以GPT-3單次訓練成本140萬美元為例,訓練任務完成時間可縮短20%,節約成本約28萬美元。”中國移動研究院基礎網絡技術研究所副所長程偉強強調,當前中國移動正在加快攻關全調度以太網2.0技術,將進一步革新底層以太網轉發機制,通過研發先進的以太網芯片,力爭推動網絡性能提升至30%以上。
此外,在智算中心的建設過程中,大規模、多廠商、異構化的服務器、交換機等設備的配置集成和測試驗收工作量也極為繁重,很容易影響工程質量和工期。作為5G、算力網絡等新型基礎設施建設的主力軍,中國移動針對此類問題也早已有“殺手锏”。中國移動研究院自主研發的“AUTO行云”自動化集成驗收平臺,能夠將超過95%的人工操作轉為自動化,使配置驗收環節效率提升10倍以上,總體工期縮短2/3以上。
即便如此,參與項目建設的中國移動研究院AUTO團隊專家馬奇鳳回想起剛接到任務時的情景,面對如此龐大的規模和復雜的狀況,內心難免有所擔憂。“剛接到黑龍江萬卡資源池需求時,我們也嚇了一跳,AUTO要測試的有6000多臺各類設備,近7萬條網絡連線,初步測算有將近25萬個測試用例,這個規模比我們之前驗收過的最大的資源池差不多翻了兩番!說實話我們是有些擔心AUTO工具的性能,因為之前沒有遇到過單池規模這么大的需求。”
AUTO運行界面
保障現網驗收工作順利進行,AUTO團隊迅速組建“黑龍江萬卡集群驗收保障小組”,與各方緊密溝通,擬定周全的預案,最終成功跨越了一個又一個技術障礙。“后來實踐發現我們前期的準備和預案都發揮了很好的效果。在哈爾濱1.8萬卡超大規模智算集群中,2小時內即可對所有設備和網絡連線進行自動化全量檢查,對智算中心高質量、高效率交付發揮了非常關鍵的作用。”中國移動研究院AUTO團隊專家李鑫欣喜地說道。
“保姆式服務”是中國移動黑龍江省公司負責萬卡集群驗收的網絡部同事們為感謝AUTO團隊現網支撐的敏捷響應和實干精神有感而發的一個“詞”。
“其實前期我們在計劃驗收智算區域節點千卡集群時,原來預計需要一個月才能驗收完畢,后來用了AUTO以及少量人工后時間縮短至差不多一周,效率提升73%以上,同時還能保證驗收設備的全覆蓋。”韓雪坦言,“如果實現的這些效果都投入人工去做的話,會是一個非常大的工作量。使用AUTO后保證效率提升的同時,其實也就是為智算集群節省了時間、耗電、人工等多項成本。”
在項目建設中,從完備的工具到迅速的響應速度,再到深度參與問題排查和整改,每一處細節都彰顯著團隊的專業素養與傾心付出。“針對現場測試及發現問題的回復,響應非常快,基本都在10分鐘以內,可以想象團隊在并行開展多個集群測試驗收支撐的同時,能做到萬卡集群10分鐘以內的響應速度還是值得點贊。”韓雪所在的網絡部驗收組對AUTO團隊的服務給予了高度肯定。
從0到1,國產化算力彰顯國之重器風范
盡管“規模越大、算力越高、效果越好”成為行業圭皋,然而在國內,全國產化的GPU萬卡集群屈指可數。有超大規模,同時還具備超強通用性的萬卡集群,更是行業空白。
哈爾濱萬卡集群建成之前,業界萬卡集群主要是基于某國外廠商GPU建設的,從計算到存儲到網絡幾乎都根植于其技術體系,成本高昂且難以替代。哈爾濱萬卡集群的建成意味著,國產GPU同樣也可以建設高效的超萬卡集群,也會進而帶動智算產業鏈中更多的企業抓住智算發展的契機,既是找到企業自身發展的機會,也是最終形成國內智算產業整體升級的機會。
但必須承認,當前萬卡集群,尤其是基于國產技術棧的萬卡集群還處于起步階段。從整個技術棧來說,不僅需要在計算、存儲、網絡等方面實現橫向協同,也需要在基礎設施、芯片使能軟件、框架層面實現縱向協同,涉及的技術領域之廣,技術難度之大,也是很少見的。
“在制定萬卡集群技術方案期間,跨部門跨領域的技術方案討論特別多,經常是某個領域遇到一個技術難題,就會拉起臨時會議召集各領域同事在線討論,在此期間觀點的碰撞在所難免,畢竟大家是在做一項開拓性的工作,并沒有一個可以照搬照抄的經驗供參考。值得一提的是,觀點碰撞之后,大家都會想辦法從各自領域尋求方案,最終促成一套技術可行也具備實施條件的方案。這種跨越不同專業的信任和互助,是促成萬卡集群技術方案快速實施的催化劑。”中國移動研究院智算攻關團隊專家陳佳媛對團隊的專業創新性和默契感到驕傲。
在國產化方面,中國移動充分發揮央企責任擔當、服務國家戰略,發揮串聯、協同、帶動作用,以創新架構、系統集群、綠色低碳為戰略支點,推動培育形成國產人工智能算力產業生態,在引領延鏈、補鏈、強鏈中升級智能算力供給。
據了解,目前中國移動已實現多家國產化智能算力芯片落地與實際應用。隨著人工智能和多模態大模型的迅猛發展,算力需求日益激增,國產算力迎來重大發展機遇。令人欣喜的是,中國移動的“九天”已實現數據構建、預訓練、微調、部署全鏈路核心技術自主創新,適配國產算力,實現全棧國產。與此同時,中國移動將持續完善智算節點建設布局,打造一批萬卡級智算集群,加快超算、量算等多種類型社會算力并網,為社會提供更加豐富、更加優質的智能算力服務。
展望未來,大模型的競爭熱潮正在驅動智算中心從千卡集群向萬卡甚至超萬卡集群演進,中國移動在構建超萬卡集群過程中積累了非常寶貴的實踐經驗,中國移動研究院也將進一步發揮技術創新的引擎作用,促進全調度以太網GSE、全向智感互聯OISA、芯合算力原生CAMA等原創核心技術成熟,為超萬卡集群的創新突破做好技術儲備,與合作伙伴一起應對超萬卡集群建設和運營帶來的前所未有的挑戰,共同實現國產智算設施的又一次跨越式發展。
在算力洶涌澎湃的今日,中國移動智算中心以卓越的技術高度,成為國之重器,以其規模宏大和責任使命,擔當國之大者,更以“四鐵”科創鐵軍,挺起國之棟梁的重任。當我們審視這個數字化時代的宏偉畫卷,中國移動算力無疑是其中最為璀璨的一筆,它用強大的力量推動著國家的發展與進步,引領著我們邁向更加輝煌的未來。