2023年9月7日,厚積薄發(fā)的混元大模型在騰訊全球數(shù)字生態(tài)大會正式亮相,并通過騰訊云對外開放。混元大模型作為核心引擎,已經(jīng)支持了公司內(nèi)部包括騰訊會議、騰訊文檔、騰訊廣告等50多個應(yīng)用,騰訊也在“AI年”進(jìn)入了“全面擁抱大模型”時代。如果說AI賦予了行業(yè)新的機(jī)遇,那么AI的算力底座則賦予AI本身新的極限,對此騰訊TEG網(wǎng)絡(luò)平臺部也在同期舉行的第24屆CIOE國際光電博覽會上,正式發(fā)布并展覽了新一代自研網(wǎng)絡(luò)產(chǎn)品,包含51.2T交換機(jī)、400G互聯(lián)光模塊、以及第二代開放光設(shè)備,引來行業(yè)伙伴高度關(guān)注。
圖1 CIOE騰訊云展臺人流涌動
自研數(shù)據(jù)中心高性能網(wǎng)絡(luò)——新一代 AI 網(wǎng)絡(luò)基座
騰訊開放網(wǎng)絡(luò)系統(tǒng)(Tencent Open Networking System)是騰訊網(wǎng)絡(luò)平臺部定義和推動開發(fā)的,致力于打造高可控、高質(zhì)量、低成本的交換機(jī)產(chǎn)品平臺,隨著GPT4的問世,AI大模型訓(xùn)練需要在上萬張GPU之間進(jìn)行海量數(shù)據(jù)交換,也對網(wǎng)絡(luò)設(shè)備提出了更高的要求。對此在本次展會中,TONS發(fā)布了適配AI新時代的兩款最新產(chǎn)品:128端口400G交換機(jī)和400G BR4光模塊,賦予新一代騰訊AI大模型網(wǎng)絡(luò)更大的接入帶寬、更大的規(guī)模組網(wǎng)以及更低的轉(zhuǎn)發(fā)延時,為AI算力鑄造高速、平穩(wěn)的極致賽道。
1、51.2T交換機(jī)
騰訊全新一代自研交換機(jī)TCS9500,交換容量 51.2T,支持128端口400G(QSFP112),兩極組網(wǎng)即可實(shí)現(xiàn) 8K GPU 集群全互聯(lián)。在結(jié)構(gòu)設(shè)計方面,結(jié)合框式產(chǎn)品可插拔易維護(hù)的特點(diǎn),在采用固定業(yè)務(wù)口方案的同時,將控制系統(tǒng)做成一張獨(dú)立的插卡,位于設(shè)備前面板,故障時可以很方便的進(jìn)行更換,提高了產(chǎn)品維護(hù)效率,降低現(xiàn)網(wǎng)故障對 AI 模型訓(xùn)練時間的影響。在散熱設(shè)計方面,產(chǎn)品支持風(fēng)冷、冷板式液冷兩種散熱模式,可根據(jù)GPU服務(wù)器散熱需求,選擇對應(yīng)產(chǎn)品配置,最大限度降低PUE。在SI設(shè)計方面,嚴(yán)格約束損耗、串?dāng)_、阻抗的關(guān)鍵指標(biāo),充分結(jié)合仿真與測試結(jié)果,系統(tǒng)級優(yōu)化高速鏈路,最終實(shí)現(xiàn)整機(jī)無PHY芯片的同時,全部端口可以支持線性直驅(qū)光模塊的應(yīng)用。
圖2 TCS9500交換機(jī)現(xiàn)場展示
2、400G BR4 LPO光模塊
針對AI大模型網(wǎng)絡(luò)需求,結(jié)合騰訊數(shù)據(jù)中心場景特點(diǎn),我們推出400 BR4光模塊。400G BR4光模塊采用QSFP112封裝形式,四通道并行收發(fā)信號,單通道速率達(dá)112Gbps,傳輸距離200m,整體功耗小于8W。
圖3 400G BR4光模塊
400G BR4光模塊旨在實(shí)現(xiàn)Building Reach,覆蓋騰訊數(shù)據(jù)中心樓棟內(nèi)全部光互聯(lián)場景。其關(guān)鍵設(shè)計如下:
1.平衡收發(fā)設(shè)計、降低Link Budget。針對DR規(guī)格光模塊發(fā)射端性能要求高,而接收端性能余量較大這一現(xiàn)狀,400G BR4對兩者進(jìn)行了平衡設(shè)計,降低發(fā)射端OMA-TDECQ要求,使得發(fā)射端設(shè)計更加簡單、產(chǎn)品良率更高。
2.優(yōu)化調(diào)制器設(shè)計,硅光芯片面積降低40%。在優(yōu)化調(diào)制器設(shè)計的同時,降低BR4規(guī)格的ER要求,在調(diào)制器損耗基本保持不增加的情況下,調(diào)制器長度下降30%,同時實(shí)現(xiàn)“一拖四”設(shè)計,硅光芯片整體面積下降40%。
3.模塊內(nèi)部“標(biāo)準(zhǔn)化”,功能塊設(shè)計。多芯片方案并行開發(fā)可以有效降低供應(yīng)風(fēng)險,但是會導(dǎo)致開發(fā)成本大幅提升,模塊內(nèi)部“標(biāo)準(zhǔn)化”是可能的解決辦法。通過將模塊內(nèi)部主要功能進(jìn)行分塊,功能塊之間的接口標(biāo)準(zhǔn)化,可以降低多芯片方案的開發(fā)成本,加快開發(fā)速度。
4.線性直驅(qū),節(jié)能降本。線性直驅(qū)光模塊(Liner-drive pluggable Optics,LPO)通過去除常規(guī)解決方案中的oDSP芯片,模塊功耗下降~50%,時延降低40~50ns,成本顯著降低,同時,還保留了傳統(tǒng)光模塊熱可插拔的特性,運(yùn)維方便。LPO 模塊在數(shù)據(jù)中心短距離互聯(lián)場景有很好的應(yīng)用前景。但是,無DSP設(shè)計降低了光模塊抗損傷的能力,為了保證誤碼率優(yōu)于規(guī)范門限,需要從全鏈路的角度去系統(tǒng)優(yōu)化設(shè)計,交換機(jī)和光模塊聯(lián)合調(diào)優(yōu)配置參數(shù),更好地發(fā)揮各自能力,提升鏈路的傳輸性能。
與TCS9500對接測試結(jié)果顯示,使用光纖自環(huán),遍歷全部端口的 BER 數(shù)據(jù)如下圖,Pre FEC BER 均小于1e-08。
圖4 400G BR4 BER測試
線性直驅(qū)的另一種解決方案是CPO,Co-Packaged Optics。CPO方案將光學(xué)器件與交換機(jī)芯片封裝在一起,大幅度降低高速信號的損耗,整機(jī)功耗相對上一代交換機(jī)降低了~23%;整機(jī)高度由4U降低為2U,為機(jī)架預(yù)留了更多的空間;接口為高密度800G,可插拔接口由56G SerDes 200G接口升級為112G SerDes 400G,高密的高速端口節(jié)省上架時間~60%。
通過端到端的細(xì)致優(yōu)化,其各項(xiàng)性能均超出規(guī)范標(biāo)準(zhǔn)。
同時,對CPO光引擎性能進(jìn)行了性能測試,TDECQ均值約為2.2dB,ER優(yōu)于4dB,性能滿足DR4 MSA要求。全端口長時間串聯(lián)測試結(jié)果零誤碼。
自研開放光網(wǎng)絡(luò)——連通數(shù)據(jù)中心的高速公路
騰訊開放光網(wǎng)絡(luò)平臺(Tencent Open Optical Platform)是網(wǎng)絡(luò)平臺部定義和推動開發(fā)的,致力于打造適配數(shù)據(jù)中心互聯(lián)場景的低成本、大帶寬、高可靠的傳送網(wǎng)絡(luò)系統(tǒng)。開放光網(wǎng)絡(luò)平臺于2018年啟動,秉承著用互聯(lián)網(wǎng)思維打造開放的光網(wǎng)絡(luò)產(chǎn)品的目標(biāo),產(chǎn)品分階段實(shí)現(xiàn)了光電解耦、相干模塊解耦的目標(biāo),并在2020光博會發(fā)布了開放光網(wǎng)絡(luò)第一代自研產(chǎn)品OPC-4。騰訊傳送網(wǎng)絡(luò)團(tuán)隊(duì)一直致力于提升開放光網(wǎng)絡(luò)平臺的能力,基于新的傳送網(wǎng)絡(luò)技術(shù)對產(chǎn)品進(jìn)行打磨和突破。三年磨一劍,在2023光博會上,開放光網(wǎng)絡(luò)平臺的第二代自研產(chǎn)品OPC-8揭開了神秘的面紗。
圖6 開放光系統(tǒng)現(xiàn)場展示
(左側(cè)為第一代平臺OPC-4,右側(cè)為新平臺OPC-8)
OPC-8作為開放光網(wǎng)絡(luò)的新一代平臺系統(tǒng),繼承了TOOP至簡高效的設(shè)計理念,平臺依然采用光電混合設(shè)計,應(yīng)用于電層平臺可接入8塊1.2T單載波速率單板實(shí)現(xiàn)9.6T帶寬接入,客戶側(cè)可靈活支持100/200/400GE業(yè)務(wù)接入。光層平臺升級支持C+L,在2U單子框內(nèi)可支持一個OTM站全部光學(xué)功能部署,結(jié)合1.2T單板可實(shí)現(xiàn)單纖76.8T傳送能力。平臺支持SNCP、OCHP、OMSP多種保護(hù)模式,滿足數(shù)據(jù)中心應(yīng)用場景的各種組網(wǎng)需求。
圖7 1.2T單載波速率單板T1X12C8
開放光網(wǎng)絡(luò)系統(tǒng)新一代平臺OPC-8,傳承了為波分產(chǎn)品做減法的理念,采用優(yōu)質(zhì)組件、高性能器件和嚴(yán)謹(jǐn)?shù)募庸すに噷?shí)現(xiàn)了在系統(tǒng)成本優(yōu)化的同時保證了苛刻的質(zhì)量要求。TOOP系列產(chǎn)品全面通過CE、GR63等質(zhì)量認(rèn)證,從而打造了安全可靠,簡單易用的物理層產(chǎn)品,持續(xù)的將“l(fā)ess is more”的理念付諸于行動。
總 結(jié)
“智變加速、產(chǎn)業(yè)煥新”,AI對產(chǎn)業(yè)的影響是現(xiàn)象級的,而騰訊在基礎(chǔ)技術(shù)底座上的探索、實(shí)踐與創(chuàng)新更是持續(xù)不斷的。作為地基,騰訊自研硬件賦予了當(dāng)下技術(shù)新的應(yīng)用與發(fā)展。未來,相信會有更強(qiáng)勁、更多元化的騰訊自研硬件會在CIOE這個國際舞臺上大放異彩。