C114訊 8月28日消息(水易)數字經濟提檔加速,人工智能技術和應用日新月異,智算無疑成為推動技術升級和應用進化的核心引擎,千卡、萬卡,甚至是十萬卡智算中心的建設如火如荼。智算集群不是簡單的將算力卡堆積,而是一個高度復雜的系統性工程,同時在算力多元異構的趨勢下,需要網絡創新來打通智算互聯互通的大動脈。
作為擁有全棧智算能力的行業“領頭羊”,新華三提出“算力×聯接”的技術理念,以開放標準化聯接響應智算對網絡提出的要求,為智能算力的廣泛應用提供了堅實的基礎,從而釋放智能算力的無限可能。
為什么需要標準化聯接?網絡聯接又是如何助力智算能力的釋放?帶著一系列問題,在第八屆未來網絡發展大會期間,包括C114在內的媒體對新華三集團高級副總裁、網絡產品線總裁曾富貴進行了采訪。
新華三集團高級副總裁、網絡產品線總裁 曾富貴
開放:標準化聯接促進智算創新
目前主流的智算方案幾乎都是封閉“全家桶”式方案,每個廠家都有自己的標準、集合通信庫等等,這一方式雖然效率有所提升,但也帶來了大量的負面效果。曾富貴介紹,封閉的系統除了面臨供應鏈的挑戰外,還將帶來更高昂的采購成本。
眾所周知,智算中心的投資不是一錘子買賣,按需分批投資才是常態,同時基于成本和需求的考量,一個智算中心內必定會存在多種算力。而各種協議、標準等割裂不統一,給多元異構算力的互聯互通帶來極大挑戰。如果無法形成合力,對投資是巨大的浪費。
這還只是考慮到單個智算中心,目前各區域、各行業都在建設智算中心,未來想要充分發揮和利用智能算力,跨廣域的聯接也至關重要。可以預想到的是,不同智算中心的方案更是千差萬別,更難以互聯互通。
曾富貴表示,新華三一直倡導標準化的聯接、多元化的異構算力。依托在網絡領域的深耕,基于通用的以太網技術,研究RoCE等標準化技術方案,利用標準化促進智算網絡創新,保持持續發展的動力。
“越是標準的技術越有生命力,而封閉的生態最終會被淘汰。”曾富貴強調,雖然標準化也意味著充分的競爭,但競爭是整個產業高速發展的基礎和技術創新的土壤。“只有大家走向開放解耦,整個產業才能持續深入發展,才不會扼殺創新。”
值得一提的是,開放標準的智算網絡已經在產業界形成共識。目前新華三是超以太網聯盟(UEC)的早期成員,同時還加入了高通量以太網聯盟(ETH+ Consortium),中國移動主導的全調度以太網(GSE)等。新華三集團網絡產品線系統規劃與解決方案部總經理程臻介紹,雖然是不同組織,但是在技術棧和技術思想方面非常接近,只是實現手段的差異。
程臻進一步補充到,回顧通信行業的高速發展,得益于整個互聯技術向以太化統一,這也是標準統一帶來的魅力。“新華三的想法就是,以標準化來促進整個生態的健康,如果突破了多元異構算力的互聯互通,未來算力的發展將會是大踏步前進。”
協同:算網存一體釋放智算潛能
為了滿足人工智能時代對算力的需求,除了大規模智算集群的建設之外,GPU的迭代速度也在加快。程臻表示:“GPU的更新速度是很快,但是其實單片GPU的能力,相對于大模型算力的需求來講,仍然跟不上節奏。”
曾富貴同樣指出,要支撐更大數據量,更快速度的計算任務,僅靠算力本身,或者說芯片的迭代已經很難跟上需求的快速增長,因此需要進行橫向的技術整合,通過算網協同/算網融合技術,場景化負載均衡技術等,充分釋放算力的性能,讓算力應用更加高效。
如何來實現?程臻介紹,首先肯定是大規模互聯技術,端口能力越大越好,從而提升傳輸效率,GPU的運算效率也會越高。目前400G端口已經非常普遍,800G也已經開始應用,1.6T端口也會很快面世。
第二是傳送效率,智算的流量具有明顯的特征,要發一起發,要停一起停,突發性很強,傳統的網絡路徑負載分擔技術難以適應這種變化,這也是為什么需要全新的負載分擔技術。而新華三推薦的DDC技術,是基于信元的完全負載分擔方式,不需要端側配合,靠網絡自身就能解決流量的均衡問題,滿足各種智算場景需要。
第三是算、網、存一體化運維協同,全維度監控智算中心運行情況,一旦出現問題能夠快速定位問題。畢竟目前算力的租賃和使用單位價格較高,客戶都希望能在極短的時間內完成模型訓練。“只要停下來,每停一分鐘都是損失。”
可靠:多維度保障智算網絡安全
可以看到,業界對于智算網絡建設需要標準化的聯接這一點,已經形成共識,產業界也在努力促成統一的標準來解決算力和聯接的效率問題。與此同時,隨著人工智能應用的不斷涌現,如何確保數據和應用傳輸的安全問題也紛至沓來。
“新華三不僅是做算力和聯接,我們也有自己的安全公司,在過去二十年里面積累了豐富的經驗。”曾富貴介紹,從底層的聯接、算力,到上層的應用軟件,新華三的解決方案全部具備了內生安全的能力。
程臻表示,在算力網絡應用落地的背景下,智算網絡的安全邊界已經消失,目前業界普遍認同的理念是網安融合和網安聯動。一方面,安全和網絡相輔相成,正因為沒有了邊界,整張網絡都需要進行安全防護;另一方面,網絡要配合安全,提供信息給各類監測分析設備和安全運營中心,提前識別安全風險,全局視角進行安全防護。
具體到網絡層面,可以通過網絡切片技術,對流量進行硬隔離;通過應用識別導入,再聯動網絡的服務鏈機制,把確定的流量指定的送到某個清洗服務或篩選服務;將網絡的加密能力和端側加密結合;通過鑒權機制,將攻擊源控制在源端,不至于影響全局。
除了字面上的安全,智算中心的組成有服務器、存儲、網絡、光模塊、高速線纜,任何地方出現故障,比如萬分之一或者千分之一的丟包率,整個訓推的效率會極速的下降。也就是說數據的傳輸效率決定算力供給效率,整個傳輸鏈路的高可靠性也是安全的重要組成部分。
除了防范外界攻擊,提升系統本身的可靠性和穩定性也是至關重要的。曾富貴介紹,新華三的算、網、存一體化運維協同平臺能夠自動把問題暴露出來,同時將AI能力、大模型能力注入到網絡和安全的設備和應用平臺中,“以AI養AI,以AI促AI”,將告警事件與故障相關聯,實現自動化處理,確保系統穩定運行,也能降低運維成本。
當然,安全不僅僅是系統本身的安全,在波詭云譎的國際形勢下,供應鏈也面臨著系統性的安全風險。這也是為什么需要通過聯接的標準化,算力的多元化,來規避壟斷和單一算力資源帶來的風險,實現百花齊放的算力生態。