ICC訊 今年來,生成式AI所需的超算集群開始有云計(jì)算服務(wù)的形態(tài),成為了云基礎(chǔ)設(shè)施和光互聯(lián)產(chǎn)品的新增長引擎。相比通用彈性計(jì)算服務(wù)器集群所發(fā)生的變化。AI訓(xùn)練的云基礎(chǔ)設(shè)施也在火熱的建設(shè)中。數(shù)據(jù)中心光互聯(lián)技術(shù)在AIGC時(shí)代發(fā)生了什么變化,如何才能更好的適應(yīng)AI數(shù)據(jù)中心基礎(chǔ)設(shè)施的要求。在iFOC 2023上,云智能網(wǎng)絡(luò)研發(fā)事業(yè)部光網(wǎng)絡(luò)架構(gòu)師 陸睿發(fā)表了《AIGC時(shí)代對(duì)數(shù)據(jù)中心光互聯(lián)的新要求》的演講。
服務(wù)器方面,X86為核心的通用計(jì)算服務(wù)器升級(jí)為以GPU為核心的高性能計(jì)算服務(wù)器,功率更高、算力更強(qiáng)、集成度更高。網(wǎng)絡(luò)方面,數(shù)據(jù)中心以太網(wǎng)網(wǎng)絡(luò)基于RoCE的以太網(wǎng)或者IB的高性能網(wǎng)絡(luò),高吞吐、超低時(shí)延和高可靠性。
AI超算網(wǎng)絡(luò)的互聯(lián)架構(gòu)包含以太網(wǎng)、Infiniband、NVLink。陸睿對(duì)比了三種互聯(lián)架構(gòu)之間的有點(diǎn)。以太網(wǎng)成本低、供應(yīng)豐富,適合多租戶共享的超算基礎(chǔ)設(shè)施;Infiniband相對(duì)封閉,適合單一用戶建立獨(dú)享的超算基礎(chǔ)設(shè)施;NVLink用于GPU之間的高速互聯(lián),開銷更小,帶寬更大,但最大256個(gè)節(jié)點(diǎn)。
陸睿表示:AI超算網(wǎng)絡(luò)的光模塊選擇傾向于選擇4通道QSFP光模塊,4通道激光器數(shù)量更少,有利于可靠性、光模塊內(nèi)部面積更寬裕,設(shè)計(jì)和制造難度小、光模塊功耗更低,系統(tǒng)散熱設(shè)計(jì)更容易。不同數(shù)據(jù)中心客戶根據(jù)自己的網(wǎng)絡(luò)架構(gòu)特點(diǎn)選擇不同的光互聯(lián)技術(shù)方案(Form factor、光電通道數(shù)、通道速率)。技術(shù)本質(zhì)基本一樣:單通道25G/56G/112G/224G。
AI需要更大的互聯(lián)需求量,接入方案已經(jīng)從DAC/AOC線纜變成了光模塊。每GPU卡和對(duì)應(yīng)的同帶寬光模塊數(shù)量比例達(dá)到1:4~1:6。在Nvidia的DGX H100和GH200的網(wǎng)絡(luò)架構(gòu)里加入了NVLink switch架構(gòu),進(jìn)一步提升GPU之間的互聯(lián)帶寬。H100/H800的8卡服務(wù)器的對(duì)外NVLink帶寬是14.4T,每卡和光模塊(按400G算)數(shù)量比例達(dá)到1:9。
AI的發(fā)展有更高速率要求,傳統(tǒng)云計(jì)算市場(chǎng)在發(fā)生變化,對(duì)更高速率光模塊的需求在變緩,基礎(chǔ)設(shè)施投入進(jìn)入精細(xì)化管控階段 。目前超算集群性能的瓶頸仍在網(wǎng)絡(luò)帶寬,會(huì)成為新一代高速光模塊產(chǎn)品的主要需求推動(dòng)力。
隨著交換機(jī)Serdes速率和數(shù)量的增加,現(xiàn)今,光模塊功耗占設(shè)備總功耗高達(dá)1/3。低功耗、低時(shí)延的光互聯(lián)技術(shù)更適合超算,陸睿對(duì)比了LPO/CPO/NPO技術(shù)的對(duì)比和選擇,他認(rèn)為LPO優(yōu)點(diǎn)是兼顧可插拔和CPO的優(yōu)點(diǎn),但系統(tǒng)集成難度大,技術(shù)約束多。CPO/NPO優(yōu)缺點(diǎn)都很明顯,尚待觀察。
光互聯(lián)在超算網(wǎng)絡(luò)中數(shù)量多且物理底層,對(duì)網(wǎng)絡(luò)整體穩(wěn)定性有關(guān)鍵性影響。光互聯(lián)如何滿足更高可靠性要求。陸睿提出研發(fā)引入階段:1.加強(qiáng)光芯片的可靠性認(rèn)證測(cè)試。2.加強(qiáng)光模塊在研發(fā)和測(cè)試引入階段的可靠性認(rèn)證測(cè)試。批量部署階段:1.嚴(yán)格執(zhí)行研發(fā)測(cè)試——小批量灰度測(cè)試——大批量部署的流程;2.加強(qiáng)光模塊在批量生產(chǎn)時(shí)的可靠性數(shù)據(jù)監(jiān)控;3.結(jié)合網(wǎng)絡(luò)監(jiān)控?cái)?shù)據(jù)平臺(tái)、自動(dòng)化運(yùn)維監(jiān)控光模塊的運(yùn)行情況;4.建立優(yōu)勝劣汰機(jī)制,選擇可靠性更優(yōu)的模塊技術(shù)、型號(hào)和廠家。
最后,在持續(xù)優(yōu)化的要求方面,陸睿講到目前IDC機(jī)房供電功率和散熱能力設(shè)計(jì)是為傳統(tǒng)云計(jì)算X86服務(wù)器設(shè)計(jì)的,不滿足GPU服務(wù)器的高密部署,低密度部署導(dǎo)致光纖連接距離變長,需要升級(jí)浸沒式液冷技術(shù)或其他效率更高的散熱技術(shù)。另外還提到新型光纖技術(shù)—空芯光纖,空芯光纖可做到3.3ns/m時(shí)延,相比普通光纖的5ns/m時(shí)延降低了33%,按照3跳交換機(jī)、每段鏈路平均距離50m計(jì)算,空芯光纖可縮短約單向0.34us時(shí)延,是一個(gè)值得期待的技術(shù)。