大型數(shù)據(jù)中心內(nèi)的網(wǎng)絡(luò)“甜點(diǎn)”——阿里巴巴自研DAC之路

訊石光通訊網(wǎng) 2023/2/16 19:34:30

  DAC(Direct Attach Cable),即直連線纜,在ICT領(lǐng)域有著非常廣泛的應(yīng)用,常用于各類IT設(shè)備的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等高速接口短距離互聯(lián),也通常以其本質(zhì)相稱——高速銅纜。

  作為數(shù)據(jù)中心物理網(wǎng)絡(luò)中的“第一段高速公路”,DAC在國(guó)際大型數(shù)據(jù)中心內(nèi)已有10多年的大規(guī)模使用歷史,國(guó)際大型數(shù)據(jù)中心幾乎不使用AOC(Active Optical Cable,即有源光纜)。2019年前,國(guó)內(nèi)數(shù)據(jù)中心的應(yīng)用狀況恰好相反。

  2018年,阿里巴巴開啟自研DAC之路。自2019年至今,國(guó)內(nèi)各大數(shù)據(jù)中心累積使用DAC的數(shù)量已遠(yuǎn)超500萬(wàn)根,僅阿里云數(shù)據(jù)中心,在2020年就已達(dá)到百萬(wàn)級(jí)部署規(guī)模。

  阿里自研DAC的應(yīng)用和落地,只是整個(gè)阿里云基礎(chǔ)設(shè)施進(jìn)步和創(chuàng)新的眾多方面之一,但卻體現(xiàn)了阿里云基礎(chǔ)設(shè)施整體協(xié)同創(chuàng)新、務(wù)實(shí)求穩(wěn)的思路。

圖1:商用DAC(左)和AOC(右)

  Q&A

  · 在大規(guī)模數(shù)據(jù)中心場(chǎng)景下使用DAC有什么好處?

  · 什么原因?qū)е翫AC在國(guó)內(nèi)數(shù)據(jù)中心的使用曾相對(duì)比較滯后?

  · 阿里巴巴的百萬(wàn)DAC之路背后有哪些思考和體驗(yàn)?

  · DAC的大規(guī)模應(yīng)用給數(shù)據(jù)中心帶來(lái)了哪些改變?

  · 展望未來(lái),DAC在數(shù)據(jù)中心的應(yīng)用前景和挑戰(zhàn)是什么?

  01 數(shù)據(jù)中心物理網(wǎng)絡(luò)互聯(lián)

  首先我們看一下數(shù)據(jù)中心內(nèi)物理網(wǎng)絡(luò)高速互聯(lián)鏈路的情況。

圖2:數(shù)據(jù)中心網(wǎng)絡(luò)鏈路概覽

  在阿里云數(shù)據(jù)中心網(wǎng)絡(luò)典型3層CLOS架構(gòu)下,集群內(nèi)用于Spine和Leaf以及Leaf和TOR之間互聯(lián)的網(wǎng)絡(luò)鏈路長(zhǎng)度一般在2km以內(nèi),其中Leaf和TOR之間的互聯(lián)長(zhǎng)度通常在100m之內(nèi)。這些需要短距和長(zhǎng)距光模塊連接的鏈路數(shù)量,占到整個(gè)集群內(nèi)總物理鏈路數(shù)量的1/3;而從服務(wù)器網(wǎng)卡接至TOR的鏈路長(zhǎng)度通常在10m之內(nèi),但是其鏈路數(shù)量則占到了總物理鏈路數(shù)的2/3,通常使用DAC或AOC來(lái)連接。

  一、DAC和AOC的異同

圖3:DAC和AOC電/光通道

  AOC和DAC兩者在兩端的模塊封裝上采用相同外形和電界面,如SFP、QSFP等各種標(biāo)準(zhǔn),確保和系統(tǒng)側(cè)(交換機(jī)、NIC等)的標(biāo)準(zhǔn)接插。

  AOC的模塊中包含了電、光轉(zhuǎn)換芯片,基本功能如CDR、Retimer/Gearbox、Laser、PD等電光器件,系統(tǒng)側(cè)的電信號(hào)調(diào)制到光信號(hào)上進(jìn)行傳輸。

  DAC則僅僅是無(wú)源銅媒介,包括模塊中直接將高速差分同軸線(twinax cable)焊接起來(lái)并外加屏蔽層和外被層作為成纜(cable assembly),電信號(hào)從端到端直接傳輸。

  二、AOC的優(yōu)勢(shì)和問(wèn)題

圖4:AOC在“黑盒”交換機(jī)下與NIC互聯(lián)

  1. 標(biāo)準(zhǔn)界面,即插即用。針對(duì)AOC光模塊的應(yīng)用,以可插拔模塊和系統(tǒng)端口處為一致性目標(biāo)點(diǎn)(TP1a和TP4),因此,在交換機(jī)“黑盒”時(shí)代,只要交換機(jī)所有端口和光模塊都滿足TP1a和TP4的電信號(hào)規(guī)格,AOC便可以即插即用。中間光信號(hào)的傳輸在模塊之間閉環(huán),系統(tǒng)用戶也無(wú)需關(guān)心。

  2. 光纖支持更長(zhǎng)連接距離。眾所周知,光纖的單位長(zhǎng)度損耗極低,可支持的傳輸距離遠(yuǎn)超銅纜。

  三、DAC的優(yōu)勢(shì)和問(wèn)題

  對(duì)IT設(shè)備的用戶和運(yùn)維者來(lái)說(shuō),DAC相比AOC有兩個(gè)非常直觀的優(yōu)勢(shì):成本和功耗。

  以2019年25G DAC和AOC為例:

  1. 成本低:DAC的成本是AOC的約1/5。

  2. 功耗低:DAC無(wú)源,零功耗;25G AOC功耗大約在1~2瓦/根。

  DAC還有相比AOC擁有更高可靠性和更低延時(shí)的優(yōu)勢(shì),在大規(guī)模部署和對(duì)時(shí)延敏感型的業(yè)務(wù)中會(huì)有較明顯的體現(xiàn)。DAC相比AOC在浸沒式液冷環(huán)境中有更強(qiáng)的適應(yīng)性(無(wú)需考慮光模塊對(duì)液體敏感的光電器件的密封處理)。

  四、DAC未規(guī)?;褂脷w因

  2019年之前,DAC在國(guó)內(nèi)數(shù)據(jù)中心未被規(guī)?;褂玫脑蛴袃蓚€(gè):

  1. DAC在網(wǎng)絡(luò)“黑盒”設(shè)備下的運(yùn)營(yíng)問(wèn)題:在使用商業(yè)交換機(jī)的時(shí)代,物理網(wǎng)絡(luò)中從TOR到服務(wù)器網(wǎng)卡,一路黑盒,無(wú)法做到包括DAC在內(nèi)的“端到端”調(diào)試,而最好選用界面信號(hào)相對(duì)標(biāo)準(zhǔn)化的AOC即插即用。如果要使用DAC,則面臨“黑盒交換機(jī)”和各種類型網(wǎng)卡的組合適配工作在整個(gè)生命周期內(nèi)都可能無(wú)法收斂,顯然對(duì)追求“穩(wěn)定”和“運(yùn)營(yíng)邊際效應(yīng)”的數(shù)據(jù)中心網(wǎng)絡(luò)運(yùn)營(yíng)是無(wú)法接受的。

  2. DAC長(zhǎng)度無(wú)法滿足各種IDC環(huán)境部署需求的問(wèn)題:DAC因直接透?jìng)鞲咚匐娦盘?hào),所以長(zhǎng)度受限于電信號(hào)損耗預(yù)算,通常在10Gbps下不超過(guò)7m,25Gbps下不超過(guò)5m,56Gbps下不超過(guò)3m,112Gbps下不超過(guò)2m,而AOC則通常可以做到最長(zhǎng)30m到100m。

  在國(guó)內(nèi)大型互聯(lián)網(wǎng)公司的數(shù)據(jù)中心快速發(fā)展的早期,以租用機(jī)房為主,機(jī)柜功耗上限、機(jī)房散熱能力、機(jī)柜布線通道等限制條件各不相同。TOR通常要跨多個(gè)機(jī)柜來(lái)接入服務(wù)器,并且還要照顧不同出線方向的服務(wù)器,造成服務(wù)器至TOR的接入距離在大部分場(chǎng)景下都超過(guò)DAC能提供的最長(zhǎng)距離,只好選用更長(zhǎng)的AOC來(lái)支持。

  這一切,隨著2018年阿里云基礎(chǔ)設(shè)施開始進(jìn)行數(shù)據(jù)中心網(wǎng)絡(luò)自研、IDC機(jī)柜自研及超大規(guī)模自建機(jī)房的投入運(yùn)營(yíng)發(fā)生了改變,在這場(chǎng)盛宴中,阿里把DAC這盤“甜點(diǎn)”端上了臺(tái)前。

  02 數(shù)據(jù)中心網(wǎng)絡(luò)白盒化 開出DAC應(yīng)用之花

  2018年開始,阿里開啟白盒交換機(jī)+自研DAC的研發(fā),確立了“以終為始”的原則:以最終大規(guī)模部署時(shí)的網(wǎng)絡(luò)穩(wěn)定性、運(yùn)營(yíng)效率為導(dǎo)向進(jìn)行總體設(shè)計(jì)。雖然“黑盒”下也存在DAC使用的技術(shù)可行性,但“白盒”才給大規(guī)模運(yùn)營(yíng)提供了根本保障。

  圖5:DAC在“白盒”交換機(jī)下與NIC互聯(lián)

  DAC互聯(lián)場(chǎng)景下,實(shí)際上兩端芯片(MAC到MAC或者PHY到PHY)之間是一個(gè)完整的電通道。

  TOR交換機(jī)+DAC+NIC每一種連接組合的總loss不同,需要TOR ASIC針對(duì)每一種loss設(shè)置合適的Tx EQ均衡參數(shù)來(lái)確保接收端的BER滿足無(wú)差錯(cuò)傳輸?shù)男枨螅M合情況非常多。

  交換機(jī)“黑盒”下,如果使用DAC,問(wèn)題就來(lái)了:

  首先,新業(yè)務(wù)需求(網(wǎng)卡、線纜)要依賴設(shè)備廠商提供端口參數(shù)更新并在線升級(jí),這對(duì)網(wǎng)絡(luò)運(yùn)營(yíng)的穩(wěn)定性和規(guī)模部署效率是極大的挑戰(zhàn)。

  其次,若妥協(xié)使用Link Training模式,可以讓99%以上的鏈路工作,但是在百萬(wàn)級(jí)別規(guī)模的鏈路數(shù)量里,這個(gè)可靠性量級(jí)會(huì)給運(yùn)維帶來(lái)沉重的負(fù)擔(dān)。

  阿里云自研白盒交換機(jī)和自研DAC是如何解決上述DAC應(yīng)用問(wèn)題的?

  1. 白盒下收斂端到端loss組合。阿里在交換機(jī)硬件設(shè)計(jì)時(shí)便考慮了交換機(jī)端口和內(nèi)部鏈路的使用規(guī)劃,設(shè)計(jì)用于下聯(lián)服務(wù)器的端口通道loss較小且loss分布范圍較窄,并且同時(shí)在自研DAC的定義中,基于IEEE 802.3相關(guān)規(guī)范,針對(duì)不同長(zhǎng)度的DAC,通過(guò)使用合適的線徑,收窄自研DAC的總體loss范圍。最后根據(jù)網(wǎng)卡通道的設(shè)計(jì)特征,在總通道loss計(jì)算和仿真中預(yù)留合理和足夠的網(wǎng)卡通道loss budget。這些設(shè)計(jì),并不用付出額外的成本代價(jià)。

  2. 白盒下選用固定均衡參數(shù)?;谝陨显O(shè)計(jì),總體互聯(lián)通道loss的收窄和可控,使得在實(shí)際中可以選用一套固定的均衡參數(shù)就可以讓所有互聯(lián)組合都能得到裕量足夠的BER性能,這套參數(shù)并不是針對(duì)每種組合都是最優(yōu)的參數(shù),但是BER足夠,且鏈路穩(wěn)定可靠。從而避免使用Link Training模式,讓大規(guī)模網(wǎng)絡(luò)運(yùn)營(yíng)具備邊際效應(yīng)。

  至此,這只是DAC規(guī)?;渴鹪O(shè)計(jì)中最基本的一部分,如何快速落地、讓DAC在IDC真正用得“爽”,還要解決機(jī)柜集成、交付、運(yùn)維的問(wèn)題,這是更關(guān)鍵的一步。

  03 基礎(chǔ)設(shè)施協(xié)同創(chuàng)新 鑄成阿里DAC規(guī)模部署之路

  就在2019年阿里數(shù)據(jù)中心大規(guī)模成功部署DAC之后,業(yè)內(nèi)迅速出現(xiàn)了一個(gè)新詞——MOR(Middle of Rack),用來(lái)戲稱阿里巴巴將TOR(Top of Rack)中置的做法。這個(gè)戲稱在某個(gè)層面卻很形象地說(shuō)明了阿里在IDC機(jī)柜級(jí)別做出的一些獨(dú)具匠心、因地制宜的創(chuàng)新。

  阿里云基礎(chǔ)設(shè)施通過(guò)整體設(shè)計(jì)來(lái)克服DAC固有的種種短板,讓DAC的可規(guī)模應(yīng)用轉(zhuǎn)化為穩(wěn)定性、能耗、成本、交付和運(yùn)營(yíng)效率等方面的整體收益。

  首先,打破常規(guī),TOR中置。TOR不一定必須放在Top。阿里將接入層交換機(jī)置于服務(wù)器機(jī)柜中間U位,單柜內(nèi)交換機(jī)到最遠(yuǎn)服務(wù)器的布線距離就縮短為了機(jī)柜高度的一半,單柜內(nèi)最長(zhǎng)僅需不超過(guò)2m。阿里第一代自研交換機(jī)甚至設(shè)計(jì)了后向前、前向后兩種散熱風(fēng)流方向,來(lái)支持不同出線方向的服務(wù)器,從而做到機(jī)柜內(nèi)同側(cè)布線,保證DAC長(zhǎng)度需求最小化。后續(xù)的演進(jìn)中,阿里已經(jīng)將服務(wù)器的出線方向統(tǒng)一為前側(cè),交換機(jī)型號(hào)歸一。

圖6:傳統(tǒng)機(jī)柜(左)TOR頂置vs阿里自研機(jī)柜(右)TOR中置

  其次,因地制宜,機(jī)柜創(chuàng)新。因?yàn)椴煌瑯I(yè)務(wù)類型的服務(wù)器配置不同,除單柜外,仍然會(huì)有交換機(jī)跨兩柜接入服務(wù)器的需求。因此在交換機(jī)中置的同時(shí),全新的機(jī)柜設(shè)計(jì)將跨柜理線的通道設(shè)計(jì)在了機(jī)柜中部(傳統(tǒng)機(jī)柜跨柜理線需要從柜頂?shù)娜蹼娍状┏龃┤耄┯糜诖┚€。這樣的話,跨兩柜的交換機(jī)到服務(wù)器線纜最長(zhǎng)需求2.5m便可以滿足;還有一點(diǎn)考慮:2.5m的長(zhǎng)度需求在56G-PAM4可以輕松滿足,甚至未來(lái)112G-PAM4速率也有機(jī)會(huì)做到。

圖7:傳統(tǒng)機(jī)柜(左)雙并柜布線vs阿里自研機(jī)柜(右)雙并柜布線SERVER

  第三,布線標(biāo)準(zhǔn)化,助高效集成交付。將DAC從0.75m開始到2.5m之間以0.25m步長(zhǎng)定義DAC長(zhǎng)度規(guī)格,將中置交換機(jī)到機(jī)柜各個(gè)U位服務(wù)器的布線規(guī)則進(jìn)行標(biāo)準(zhǔn)化定義,線纜長(zhǎng)度剛剛夠,而無(wú)需額外的彎折和盤線,使得整機(jī)柜集成和交付的效率大大提升,同時(shí)也盡量避免DAC過(guò)度彎折帶來(lái)的信號(hào)完整性性能劣化。

  第四,DAC自研創(chuàng)新,解現(xiàn)場(chǎng)運(yùn)維之憂??紤]到IDC運(yùn)維習(xí)慣了多年的AOC較細(xì)、較軟的布線和運(yùn)維體驗(yàn),阿里在自研DAC的設(shè)計(jì)中特別使用了尼龍編織外被取代傳統(tǒng)的PVC材質(zhì)的外被,使得第一代25G DAC的彎折半徑和柔軟度較標(biāo)準(zhǔn)商用DAC大幅提升,成功幫助IDC現(xiàn)場(chǎng)運(yùn)維從習(xí)慣已久的AOC過(guò)渡到DAC。

圖8:阿里自研25G DAC(左)和200G 1分2 DAC(右)

  隨著自研交換機(jī)和DAC,以整機(jī)柜集成的形式在阿里云數(shù)據(jù)中心快速規(guī)模化部署,阿里云數(shù)據(jù)中心DAC在2019年起的一年多時(shí)間內(nèi),率先達(dá)到了百萬(wàn)量級(jí)的部署規(guī)模。

  04 開放共贏 結(jié)出國(guó)內(nèi)DAC應(yīng)用累累之果

  2020年,在阿里巴巴數(shù)據(jù)中心部署DAC累積百萬(wàn)規(guī)模、運(yùn)營(yíng)一年之后,由阿里巴巴牽頭,和騰訊、百度等國(guó)內(nèi)大型數(shù)據(jù)中心用戶合作,聯(lián)合立訊、兆龍等國(guó)內(nèi)DAC廠商代表,在ODCC發(fā)布了《下一代數(shù)據(jù)中心高速銅纜技術(shù)白皮書》。

《白皮書》

  詳細(xì)闡述了DAC在數(shù)據(jù)中心高速互聯(lián)中的應(yīng)用技術(shù),以及從25G-NRZ至56G-PAM4演進(jìn)的方案。

  阿里巴巴以自己的大規(guī)模部署、運(yùn)營(yíng)結(jié)果,給國(guó)內(nèi)用戶們帶來(lái)了DAC應(yīng)用的最佳實(shí)踐經(jīng)驗(yàn)和信心。隨后幾年,越來(lái)越多的國(guó)內(nèi)大型數(shù)據(jù)中心都陸續(xù)將DAC作為物理網(wǎng)絡(luò)“第一段高速公路”的首選,越來(lái)越多的合作伙伴也相繼進(jìn)入DAC的研發(fā)、制造、供應(yīng)和集成。

  從2019年至今,國(guó)內(nèi)數(shù)據(jù)中心部署DAC的數(shù)量已累計(jì)超過(guò)500萬(wàn)根,而這背后,帶來(lái)的是每年數(shù)以億計(jì)的成本降低和數(shù)千萬(wàn)度電力的能源節(jié)約。

  05 從零到百萬(wàn) DAC規(guī)模化部署為數(shù)據(jù)中心帶來(lái)的改變

  DAC在數(shù)據(jù)中心內(nèi)的大規(guī)模部署使用,帶來(lái)的并不只有最直觀的成本和能耗收益,還有對(duì)數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)、演進(jìn)、業(yè)務(wù)性能的影響。如果從整個(gè)云基礎(chǔ)設(shè)施的角度來(lái)看,后者甚至具有更重要的意義。

  一、與業(yè)務(wù)松耦合,讓網(wǎng)絡(luò)輕松演進(jìn)

  1. 網(wǎng)絡(luò)追求單GB成本紅利,演進(jìn)較快。數(shù)據(jù)中心網(wǎng)絡(luò)商用芯片的帶寬基本上維持著每3年翻一倍的演進(jìn)速度,數(shù)據(jù)中心網(wǎng)絡(luò)也會(huì)在第一時(shí)間同步演進(jìn),以追求單GB網(wǎng)絡(luò)帶寬成本的下降紅利,以及新特性的應(yīng)用。

  2. 業(yè)務(wù)長(zhǎng)尾且多樣,迭代不同步。在同一個(gè)數(shù)據(jù)中心網(wǎng)絡(luò)內(nèi),同期通常會(huì)有不同速率的業(yè)務(wù)接入需求,比如在200G網(wǎng)絡(luò)下,主力接入是50G服務(wù)器,但同時(shí)仍然會(huì)有25G和100G服務(wù)器業(yè)務(wù)的接入需求。

  3. 利用多種形態(tài)的線纜,使數(shù)據(jù)中心網(wǎng)絡(luò)的演進(jìn)與業(yè)務(wù)迭代松耦合。DAC的使用,非常容易實(shí)現(xiàn)各種特殊形態(tài)線纜,因?yàn)椴煌螒B(tài)的DAC在主體上都是使用相同的高速裸線、制造工藝。DAC提供的低成本、通用性、靈活性、快速交付等特性,能夠高效地支持不同速率的業(yè)務(wù)接入,讓數(shù)據(jù)中心網(wǎng)絡(luò)能夠輕松、快速地演進(jìn)獲得帶寬紅利和新特性。

  阿里云數(shù)據(jù)中心100G網(wǎng)絡(luò)架構(gòu)中,采用25G和100G (NRZ)兩種直連DAC,TOR則對(duì)應(yīng)有25G和100G兩種型號(hào)。

  阿里云數(shù)據(jù)中心200G網(wǎng)絡(luò)架構(gòu)中,進(jìn)一步將TOR收斂為一款設(shè)備,而使用Breakout形態(tài)如200G 1分2,100G 1分4,50G 1分2等多種DAC線纜,來(lái)支持從25G到100G(PAM4)不同速率服務(wù)器接入。網(wǎng)絡(luò)則快速?gòu)?00G迭代到200G。

  未來(lái)阿里云數(shù)據(jù)中心網(wǎng)絡(luò)的迭代和演進(jìn),也將受益于此。

  二、穩(wěn)定性提升,延時(shí)降低

  1. 在普通風(fēng)冷環(huán)境中,DAC的故障率同比AOC降低1個(gè)數(shù)量級(jí)以上。由于DAC零功耗,不含有電、光芯片等有源器件,不存在因激光器老化、半導(dǎo)體電應(yīng)力等導(dǎo)致的失效因子。在業(yè)務(wù)運(yùn)行中DAC體現(xiàn)了非常高的穩(wěn)定性,網(wǎng)絡(luò)運(yùn)營(yíng)輕量化,用戶網(wǎng)絡(luò)體驗(yàn)“絲般順滑”。

  2. 在浸沒式液冷環(huán)境中,DAC更是體現(xiàn)了簡(jiǎn)單、可靠的特點(diǎn)。DAC內(nèi)不含有激光器、光波導(dǎo)等對(duì)液體敏感器件,不必采用如光模塊所必須的密封工藝,從而極大降低了相應(yīng)的成本,提高了可靠性。阿里數(shù)據(jù)中心DAC通過(guò)對(duì)材料選用、線纜信號(hào)完整性性能設(shè)計(jì),采用一款DAC同時(shí)支持風(fēng)冷和浸沒式液冷環(huán)境。

  3. DAC提供極低的延時(shí)性能。DAC和光纖線纜本身均會(huì)有大約5ns/m的傳輸延時(shí),但是光模塊則因重新時(shí)鐘恢復(fù)(CDR),甚至需要基于DSP的信號(hào)均衡技術(shù),引入了額外的信號(hào)延時(shí)。在AI計(jì)算、資源池化等場(chǎng)景下,延時(shí)需要格外的控制。PCIE Gen6在64G-PAM4的速率下物理層協(xié)議中為了控制延時(shí)僅僅留了10ns以內(nèi)的FEC延時(shí)開銷預(yù)算,而光模塊DSP-based re-timer芯片就會(huì)帶來(lái)幾十納秒的延時(shí)(收+發(fā))。

  三、節(jié)能減排,降本增效

  能耗和采購(gòu)成本的降低,是從AOC切換到DAC后帶來(lái)的最直觀的收益。尤其是當(dāng)匹以數(shù)據(jù)中心百萬(wàn)級(jí)別的使用數(shù)量時(shí),數(shù)字更令人吃驚。

  以100萬(wàn)根25G直連DAC為例:

  OPEX:每年節(jié)省的電力消耗為>1千萬(wàn)度;

  CAPEX:每100萬(wàn)根25G DAC節(jié)省>1億元。

  此外,DAC無(wú)需建立如光模塊運(yùn)營(yíng)中所需的對(duì)激光器、模塊溫度等監(jiān)控所需的系統(tǒng),無(wú)需關(guān)注光纖端面潔凈度等現(xiàn)場(chǎng)問(wèn)題。在數(shù)據(jù)中心內(nèi)服務(wù)器部署規(guī)模爆發(fā)式增長(zhǎng)的同時(shí),DAC的應(yīng)用幫助IDC現(xiàn)場(chǎng)運(yùn)維、數(shù)據(jù)中心網(wǎng)絡(luò)運(yùn)營(yíng)效率明顯提升。

  06 展望未來(lái)

  DAC以銅為傳輸媒介,本質(zhì)上決定了無(wú)論物理網(wǎng)絡(luò)通過(guò)提高單通道速率還是增加并行通道數(shù)量的方式來(lái)升級(jí)鏈路帶寬,DAC的應(yīng)用都會(huì)受到嚴(yán)重挑戰(zhàn)?!案恍摇钡氖牵@兩種方式往往是同時(shí)或交替進(jìn)行的。

  一、挑戰(zhàn):越來(lái)越短,越來(lái)越粗

  銅纜傳輸線的損耗在3~6dB/m這個(gè)級(jí)別,隨著單通道速率的不斷增長(zhǎng),能支持的DAC長(zhǎng)度將會(huì)越來(lái)越短。如果能支持的最長(zhǎng)長(zhǎng)度達(dá)不到1.5m~2m,那就失去了DAC應(yīng)用的大部分意義。

  DAC中每一路銅傳輸線的直徑在毫米級(jí)別(光纖則在微米級(jí)別),4通道→8通道→16通道的scale out使得DAC的直徑幾乎成倍地增加。

  所以在網(wǎng)絡(luò)速率和帶寬不斷提升的過(guò)程中,DAC在機(jī)柜內(nèi)布線、可連接長(zhǎng)度都有非常大的挑戰(zhàn)。

  二、DAC的未來(lái)

  隨著物理網(wǎng)絡(luò)單通道速率邁向224Gbps,銅媒介電通道面臨著非常大的挑戰(zhàn)。但是在高級(jí)Serdes技術(shù)的加持下,在材料和工藝不斷進(jìn)步中,使用DAC來(lái)滿足數(shù)據(jù)中心超短距網(wǎng)絡(luò)互聯(lián)仍然是可實(shí)現(xiàn)且意義重大的。

  1. 材料和工藝演進(jìn):高速線纜的材料(包括絕緣介質(zhì)材料和導(dǎo)體材料)性能以大約每三年20~30%的速度提升,而信號(hào)速率則是每三年翻一倍。當(dāng)前的研究中,一些新的DAC材料工藝和技術(shù)也在不斷地涌現(xiàn),例如在不降低銅導(dǎo)體直徑的情況下,通過(guò)新材料和工藝降低絕緣層的厚度,使得總體線徑較小;還有比如通過(guò)成纜方式的改變,在同樣線徑下使得線纜更軟更易彎折。

  2. 新的應(yīng)用需求:隨著AI計(jì)算的迅猛增長(zhǎng),AI訓(xùn)練集群內(nèi)的互聯(lián)擴(kuò)展需要高帶寬、低延時(shí)。另外計(jì)算、存儲(chǔ)資源池化和擴(kuò)展,也在提出對(duì)低延時(shí)互聯(lián)技術(shù)標(biāo)準(zhǔn)化的需求。DAC的高穩(wěn)定、低延時(shí)的特性可以很好地滿足這些領(lǐng)域的需求。

  3. DAC長(zhǎng)度之上的潛在方案:從通信的邏輯上看很簡(jiǎn)單,“電中繼”或者“電轉(zhuǎn)光”,滿足超過(guò)無(wú)源DAC長(zhǎng)度極限的需求。

  有源銅纜。通過(guò)在DAC的模塊中加入Re-driver或Re-timer,來(lái)“中繼”電信號(hào)以達(dá)到延長(zhǎng)高速電信號(hào)傳輸距離(變長(zhǎng)),或同等距離下減小線徑(變細(xì))的目的。其成本和功耗介于無(wú)源DAC和有源AOC之間,在一定的速率范圍內(nèi)是個(gè)不錯(cuò)的選擇。但是隨著速率上升到112G-PAM4以后,需要有CDR功能的re-timer(甚至DSP-based),后者則又帶來(lái)和光模塊相當(dāng)?shù)膫鬏斞訒r(shí)和功耗代價(jià)。

  Direct-drive光模塊。其模塊中不使用CDR(且不使用DSP-based均衡器)從而同比大大降低了傳輸延時(shí),代價(jià)是強(qiáng)依賴于鏈路兩端的芯片來(lái)提供對(duì)信號(hào)的補(bǔ)償和均衡,兩端設(shè)備內(nèi)的通道損耗預(yù)算被縮減。當(dāng)前業(yè)內(nèi)的一些廠商在進(jìn)行基于112G-PAM4速率的Direct-drive光模塊研發(fā),生態(tài)處于早期階段。

  DAC技術(shù),只是數(shù)據(jù)中心物理網(wǎng)絡(luò)互聯(lián)技術(shù)中的一個(gè)小部分,其所帶來(lái)的成本、能效、穩(wěn)定性、網(wǎng)絡(luò)性能方面的貢獻(xiàn)是非常明顯的;同時(shí),其局限性和挑戰(zhàn)也一樣明顯。

  面對(duì)未來(lái)高性能、可預(yù)期數(shù)據(jù)中心網(wǎng)絡(luò)的發(fā)展需求,我們需要的,一定是基礎(chǔ)設(shè)施整體的創(chuàng)新。

新聞來(lái)源:阿里云基礎(chǔ)設(shè)施

相關(guān)文章