ICC訊 2020年,注定會成為人類歷史上不平凡的一年。疫情,這場沒有硝煙的戰(zhàn)爭,讓我們每一個人在2020年都抒寫出了屬于自己的,或傷感、或迷茫、或精彩、或勵志的故事,而這些故事,匯聚成了我們的2020年。
在疫情最嚴重的時候,線上辦公,讓我們再一次印證了信息技術(shù)給包括我們在內(nèi)的所有人能夠帶來的莫大幫助。從相隔數(shù)里到遠隔重洋,在無情的疫情面前,線上,成為了承接我們智慧與創(chuàng)造的堅實平臺。
在疫情所帶來的影響及變化下,TOOP也同樣面臨著前所未有的挑戰(zhàn)與機遇。在這樣不平凡的一年中,我們勇敢地直面挑戰(zhàn),果斷地抓住機遇,回首經(jīng)年,我們收獲頗豐。相信在2021年,我們會繼續(xù)翱翔乾坤間,長空振翅沖云霄。
Flex-grid與400G DCO升級現(xiàn)網(wǎng)規(guī)模部署
TOOP的2020迎來了重量級升級,在9月的CIOE上TOOP發(fā)布了2款新產(chǎn)品?;贑FP2-DCO的T2X4C8電層子卡與支持Flex-grid的CMUX-64子卡,讓TOOP成為了一套完整的DWDM系統(tǒng):OPC-4光層+TPC-4電層+TOC控制器的組合讓TOOP具備端到端的柔性光網(wǎng)絡(luò)交付能力。經(jīng)過一段時間的系統(tǒng)測試后,我們高興的宣布:
基于CFP2-DCO可插拔模塊的400G方案結(jié)合CMUX-64的Flex-grid光層平臺正式規(guī)模上線服役啦!并且隨著Flex-grid功能的規(guī)模部署,無論是當前65Gbaud, 69Gbaud的單波400G還是未來128Gbaud的單波800G系統(tǒng)無需更換OPC光層器件,平滑支持未來速率演進。
兼顧成本與不確定性
相比數(shù)通產(chǎn)品,波分系統(tǒng)相對封閉。繼光電解耦之后,這一次我們的變革觸及到波分系統(tǒng)的核心器件——相干模塊。傳統(tǒng)的電層單板采用5”x7” MSA模塊方案,不同的芯片組需要設(shè)計不同的業(yè)務板卡,對應的子框與控制器都需要開發(fā)工作,增加了適配與測試成本。這就好像早期的智能手機,不同的手機有不同的數(shù)據(jù)接口,與電腦連接時需要不同的驅(qū)動,數(shù)據(jù)線也互不通用,用戶使用起來很不方便。
可插拔相干模塊(DCO)方案,就好比當下的智能機,手機型號可能千奇百怪,但數(shù)據(jù)接口基本統(tǒng)一,一根type-C的數(shù)據(jù)線便可讓不同廠商的手機連接電腦,也無需在安裝繁瑣的驅(qū)動,提供了應用的便利。DCO方案賦予用戶更多靈活性,用戶可以在DSP與TROSA之間根據(jù)性能與成本特性選擇不同芯片組方案。不同的相干模塊可以在同一塊板卡上部署,硬件的差異性在板卡層面屏蔽,無需擔心模塊會對控制器帶來額外的適配工作。
可插拔相干模塊讓波分系統(tǒng)的核心器件解耦成為了可能,從而進一步的降低成本和保證供應鏈體系的安全,也極大的簡化了系統(tǒng)開發(fā)的復雜度。
通過統(tǒng)計全網(wǎng)光纜的損耗分布情況,我們發(fā)現(xiàn)在四纖三路由應用場景下普通400G-ZR模塊無法承擔性能需求。而采用CFP2封裝的DCO,內(nèi)部通過SOA或EDFA提高發(fā)光功率,芯片也可獲得更高的功耗支持,性能高于普通的400G-ZR模塊,CFP-2 DCO采用與400G-ZR采用相同DSP芯片,成本稍有上浮適合需要一定性能需求的應用場景。
TOOP旨在通過技術(shù)創(chuàng)新來降低CapEx與OpEx。我們在設(shè)計400G時吸取了傳統(tǒng)系統(tǒng)的一些問題,站在巨人的肩膀上再從需求角度對相干模塊進行了功能的深度定制化。
電芯片層面加了性能預判機制
相干系統(tǒng)通過強大的FEC(前向糾錯編碼)技術(shù)實現(xiàn)對傳送的bit進行錯誤修正,F(xiàn)EC編碼算法就像微信的語音轉(zhuǎn)換文字功能,其具備一定的口音糾錯能力。進行語音文字轉(zhuǎn)換時,算法會根據(jù)語意來判斷是否修正口音帶來的干擾。當你的口音很重或者引入過多方言時,超過算法的容忍上限時其轉(zhuǎn)換也會出錯。如同我們可以用轉(zhuǎn)換正確率來評估普通話標準與否一樣,我們可以根據(jù)Pre-fec前向糾錯誤碼率來評估系統(tǒng)的性能情況。TOOP通過CFP2-DCO的Pin37 管腳來上報pre-fec前向糾錯編碼超限的事件,實現(xiàn)了對性能劣化事件的提前關(guān)注。當DSP檢測到Pre-fec越過設(shè)定門限,即拉高Pin37管腳,為業(yè)務的無損切換提供可能性。
業(yè)內(nèi)首創(chuàng)的DSP收斂計時上報,實現(xiàn)業(yè)務受損時間監(jiān)控
引入了DCO模塊收斂計時功能,如上圖所示,TOOP系統(tǒng)可以記錄光路倒換過程的持續(xù)時間,包括光保護(OP)板卡的光開關(guān)切換時間與DCO模塊的業(yè)務中斷時間。我們定義了DCO模塊的業(yè)務中斷計時功能,定義0x910e(高位)與0x910f(低位)寄存器內(nèi)儲存了DSP收斂時間,其十進制值即收斂時間,單位us,上圖中的測試結(jié)果為4971us=4.971ms,這樣的數(shù)據(jù)協(xié)助我們診斷系統(tǒng)的性能問題。例如,當某次保護切換事件發(fā)生時,OP開關(guān)切換時間較短,而DSP的收斂時間較久,則說明線路性能余量不足,在光信號劣化至光開關(guān)切換門限值之前DSP已經(jīng)產(chǎn)生了誤碼。
DSP收斂時間這個功能讓我們第一次在ms級尺度上對一個瞬態(tài)進行描述,目的是減少上層業(yè)務的感知,進一步優(yōu)化四纖三路由系統(tǒng),讓我們打造更加可靠且穩(wěn)定的底層系統(tǒng)。
DSP 色散掃描范圍自動配置
當前400G場景下,因光纜中斷而引起的倒換事件對業(yè)務的影響時間由原先的100ms級別(業(yè)務層面丟失時間),降低到了10ms級別(業(yè)務層面丟失時間),從而降低光纜中斷引起的業(yè)務損失。
在線路開通時,OPC-4的OTDR會探測線路實際距離(主備用路由收發(fā)雙芯分別探測),通過距離配置DSP的色散掃描范圍,由默認的-20000~2000ps,配置成符合主備用光纜距離的實際值,例如-5000 ~ 2000ps,得益于DSP的算法優(yōu)化與色散掃描范圍的自動配置,通過減少DSP的resync的色散搜索時間,進一步提升保護倒換的速度,進而減少業(yè)務受損時間。
根據(jù)實際測試結(jié)果,儀表顯示波分系統(tǒng)在保護倒換過程中的切換時間最長為8ms,最短為3.8ms,上圖左側(cè)部分顯示通過交換機加載流量端到端測試結(jié)果,TOOP 400G系統(tǒng)在倒換過程中速度更快,減少了業(yè)務受損時間,為線上服務的可靠性提供了有效保障。
DCO自動測量端到端RTT時延功能
通過下插探測信號序列,實現(xiàn)DCO寄存器讀取線路RTT時延,從而對開通系統(tǒng)的線路性能指標進行準確預估,此功能為自動重路由功能提供了數(shù)據(jù)基礎(chǔ)。
DCO內(nèi)全量PM數(shù)據(jù)秒級telemetry提取
定義超過85項的PM數(shù)據(jù)通過telemetry進行秒級采集,是業(yè)內(nèi)第一次將ASIC中的信息進行如此全面的采集。進而通過數(shù)據(jù)分析提供DCO硬件故障預測與線路狀態(tài)預測功能,T2X4C8單板具備硬件反饋機制,該機制使子框內(nèi)OP-6單板支持通過DCO的BER觸發(fā)OCH1+1保護倒換。
海量的PM數(shù)據(jù)是我們未來重點挖掘的數(shù)據(jù)寶藏,這將賦予我們一些偵測線路信息的能力。
如上圖所顯示,不同的光纜長度對應的色散補償值不同,例如某光纜割接后距離發(fā)生變化,通過色散數(shù)據(jù)可立即識別到光路發(fā)生了變化,聯(lián)動控制器進行OTDR測試并告知維護人員光纜發(fā)生了路由改變。我們正在對這一系列數(shù)據(jù)進行挖潛,目的是在系統(tǒng)受損前進行業(yè)務止損操作,提升服務可靠性。我們甚至可以通過這些參數(shù)得知光纜割接過程中的誤操作,例如G.652光纜與G.655光纜混接等等,傳統(tǒng)系統(tǒng)無法感知或定位耗時的問題可以通過這些數(shù)據(jù)解答。
打個硬廣,我們有海量的性能數(shù)據(jù),我們上線以來已經(jīng)積累了數(shù)百Tbits的數(shù)據(jù)。我們希望通過運用這些數(shù)據(jù)去推斷并抓取光纜的特征值,進而實現(xiàn)對光纜的發(fā)生變化進行提示,包括同路由分析,光纜中斷預測等。希望有興趣的優(yōu)秀畢業(yè)生加入騰訊網(wǎng)絡(luò)平臺部,讓我們一起打造更穩(wěn)定的網(wǎng)絡(luò)系統(tǒng)。
TOOP向柔性網(wǎng)絡(luò)演進,F(xiàn)lex-grid 為我們打造未來平臺
TOOP首次在DCI平臺引入靈活柵格技術(shù)(flex-grid),實現(xiàn)了柔性光網(wǎng)絡(luò)的能力。在面對400G以及400G+場景的平滑演進提供了基礎(chǔ)。TOOP選擇了簡單作為其設(shè)計語言。通過友好的施工管理設(shè)計,利用MUX-PAENL對64個通道進行散出,背面與前部走線設(shè)計減少布線復雜度。控制層面通過拓撲管理組件實現(xiàn)簡明扼要的指示,避免維護時的復雜度。
CMUX-64單板與MUX-PANEL采用了專利設(shè)計,實現(xiàn)了低損耗的OMSP與Flex-grid應用。在點到點OMSP場景時無需額外增加OP單板即可實現(xiàn),在采用OCH1+1場景或無需光層保護場景時也不會額外增加插損。整體功率計算符合鏈路落波與合波需求,滿足400G及400G+場景的需求,該系統(tǒng)可以平滑向未來演進,進而降低光層的重復投資與提升頻譜利用率。
CMUX-64所采用的WSS器件具備優(yōu)秀濾波特性,讓我們減少了對DCO模塊內(nèi)置TOF的需求,進一步降低DCO模塊的成本。同時Flex-grid賦予我們無需標準化FEC,兩端IDC的不同DSP廠商的DCO可以自適應匹配,無需繁瑣的現(xiàn)場操作。這里劃重點,TOOP產(chǎn)品的設(shè)計語言是“簡”,我們希望現(xiàn)場處理問題的方式就是安裝與替換,縮短系統(tǒng)開通與故障處理的時間,提升業(yè)務的可用率。電層設(shè)備與合波器之間的頻率分配,互聯(lián)關(guān)系等問題可以做到無圖紙化施工,我們引入了自適應功能來實現(xiàn)匹配波長功能。同時CMUX-64可以針對不同模塊的發(fā)射功率差異與不同波特率的問題,包括正在測試中的基于PCS-16QAM的69Gbaud CFP2-DCO的高性能 400G所需81.5GHz頻譜間隔應用,采用Flex-grid可以很好的解決。
如何快速的、自動的、準確的調(diào)整波分系統(tǒng)各節(jié)點功率是一個業(yè)內(nèi)難題,在引入CMUX-64后,我們增加了系統(tǒng)調(diào)節(jié)點,其中CMUX-64中的2個32緯度WSS器件,通過自動/手動配置WSS針對各通道VOA,通過控制器的集中控制可以實現(xiàn)入纖的平坦度的調(diào)節(jié)。
關(guān)于TOOP 2021的一些技術(shù)討論
TOOP今年將重點豐富TOC控制器的各項功能,針對自動化進行一些列復雜的迭代。我們的目標是將傳統(tǒng)后驗的故障處理向提前感知進行演進。此部分請持續(xù)關(guān)注鵝廠網(wǎng)事,也歡迎感興趣的小伙伴加入到我們的行列,讓我們一同把傳送系統(tǒng)變得更加“簡單”!
關(guān)于硬件,TOOP在2021年不會有Super C-band(C++方案)的應用,不會有96Gbaud 800G應用。TOOP會繼續(xù)在C-band場景下進行部署,從目前器件成熟度角度來看下一目標是實現(xiàn)C&L-band應用,但是不會選擇Super C-band或 Super C&L-band方案,分析如下:
1.由于受激拉曼散射(SRS),短波長能量向長波長傳遞,導致短波長插損更大,C+L波段進一步增加插損。Super C+L會讓此劣化趨勢更加顯著。
2.按照當下7nm 芯片400G場景來計算,Super C&L-band比C&L-band容量增加有限(51.2Tbps vs 54.4Tbps),但是成本要高30% -40%,因而我們認為C+L是目前性價比更好的方案。
關(guān)于96G波特率的800G產(chǎn)品,由于性能與開發(fā)成本原因,TOOP選擇跳過96G波特率的產(chǎn)品,目標鎖定在128G+波特率的800G產(chǎn)品。
寫在最后
TOOP是一個軟硬組合的產(chǎn)品,也終于在這個特殊的年份中,TOOP成長成一套完整的波分系統(tǒng)。在設(shè)計整套系統(tǒng)的過程中,我們舍棄了很多功能,一直對系統(tǒng)做減法。“簡”,簡化,讓設(shè)備簡單化,是我們一直秉持的執(zhí)念。我們相信一個簡單的產(chǎn)品一定是低成本的產(chǎn)品。無論是器件成本、學習成本、使用成本,簡單會帶來成本的降低。就像今年某位朋友常提到的,Less is more,TOOP 會繼續(xù)朝向把復雜留給“自己”,把簡單留給“用戶”方向演進。
其實從波分系統(tǒng)在DCI場景的演進來看,需求從單純注重性能開始向功耗、數(shù)據(jù)為王的方向轉(zhuǎn)變。如果將波分電層產(chǎn)品比做是汽車,DCI產(chǎn)品更像是新能源產(chǎn)品,0-100加速是幾秒已經(jīng)不在重要,相反自動駕駛、低使用成本、智能人機交互成為了主流。
回到波分系統(tǒng)本身,我們也已經(jīng)度過了單純看性能、容量去pk一個設(shè)備優(yōu)劣的時代。性能滿足需求即可,相反可維護性和數(shù)字化是我們所極致追求的,相信隨著學習算法的引入,未來的光網(wǎng)絡(luò)可以真的實現(xiàn)Zero-touch。
我們經(jīng)歷了光電解耦,打破了傳統(tǒng)的封閉性,但通過實際部署時我們發(fā)現(xiàn),從工程角度來看,混合部署反而增加了工作量。因此我們從去年開始標準化電層產(chǎn)品,犧牲了很多來換取規(guī)模部署的一致性。這對產(chǎn)業(yè)也是一次迭代過程,也是一個挑戰(zhàn)。本次針對可插拔方案便是對相干器件解耦的探索,同時引入了眾多高性能器件。我們發(fā)現(xiàn)其實降成本與高性能器件是可以兼顧的??紤]到DCO適配的復雜度,我們聯(lián)合阿里、百度、快手正在ODCC框架下推動DCO的標準統(tǒng)一化,包括主要寄存器的映射關(guān)系、光學參數(shù)、告警以及功能等,歡迎感興趣的同志們加入我們的行列,讓我們一起打造更好用的光網(wǎng)絡(luò)系統(tǒng)。