筑基煉己,提升網(wǎng)絡(luò)核心能力
近幾年來(lái),騰訊DCI經(jīng)歷了幾次重要的演進(jìn)。網(wǎng)絡(luò)的本質(zhì)是為業(yè)務(wù)提供支撐和服務(wù),所以網(wǎng)絡(luò)的演進(jìn)也應(yīng)由需求驅(qū)動(dòng)而非技術(shù)驅(qū)動(dòng)。過(guò)去五年騰訊基礎(chǔ)網(wǎng)絡(luò)需求的最大變化,來(lái)自于服務(wù)對(duì)象的變化。基礎(chǔ)網(wǎng)絡(luò)所支撐的,從以產(chǎn)品導(dǎo)向?yàn)橹鞯腡o C自研業(yè)務(wù),逐漸變?yōu)橐孕枨髮?dǎo)向?yàn)橹鞯摹o B的公有云業(yè)務(wù)。兩類業(yè)務(wù)各自特點(diǎn)的不同,直接導(dǎo)致了對(duì)網(wǎng)絡(luò)需求的差異??蛻羝谕覀兲峁┮粡堎|(zhì)量盡量好、成本盡量低的網(wǎng)絡(luò),并且能夠根據(jù)需求隨時(shí)交付。相信很多網(wǎng)絡(luò)工程師都因?yàn)檫@樣的需求而產(chǎn)生過(guò)焦慮。
我們并不質(zhì)疑需求的合理性,這個(gè)問(wèn)題的矛盾實(shí)際是過(guò)去傳統(tǒng)網(wǎng)絡(luò)的演進(jìn)無(wú)法匹配業(yè)務(wù)的發(fā)展速度而引起的,伴隨而來(lái)的是一次次運(yùn)營(yíng)事件和客戶抱怨。我們進(jìn)行了深入的復(fù)盤和反思,總結(jié)了網(wǎng)絡(luò)核心能力三要素——質(zhì)量,成本,效率,并針對(duì)這三個(gè)要素對(duì)DCI網(wǎng)絡(luò)進(jìn)行了系統(tǒng)的優(yōu)化:
對(duì)全網(wǎng)數(shù)通設(shè)備、傳輸設(shè)備、線路的性能和可靠性進(jìn)行專項(xiàng)攻堅(jiān)提升;
優(yōu)化變更管理和監(jiān)控流程,確保所有網(wǎng)絡(luò)操作一旦觸發(fā)異常可被第一時(shí)間定位并恢復(fù);
網(wǎng)絡(luò)架構(gòu)優(yōu)化,推出全新DCI架構(gòu)B2,采用多平面+分域網(wǎng)絡(luò)設(shè)計(jì),集中式+分布式的SDN控制調(diào)度,簡(jiǎn)化網(wǎng)絡(luò)的同時(shí)有效控制了DCI故障的爆炸半徑;
自動(dòng)化運(yùn)營(yíng)能力提升,基于自研NetOps自動(dòng)化運(yùn)營(yíng)平臺(tái),通過(guò)配置建模、代碼化架構(gòu)發(fā)布和管理、全流程自動(dòng)化下發(fā)等方法,實(shí)現(xiàn)了對(duì)網(wǎng)絡(luò)配置、變更的完全可控;通過(guò)立體監(jiān)控、優(yōu)雅隔離、灰度恢復(fù)等手段實(shí)現(xiàn)了快速故障定位和自愈。
當(dāng)我們信心滿滿的迎來(lái)2021年時(shí),我們卻被一些“個(gè)性”的需求難住了。21年初,某云上客戶需要使用騰訊會(huì)議舉行一場(chǎng)重要的跨國(guó)視頻會(huì)議,需要網(wǎng)絡(luò)側(cè)為該用戶的會(huì)議業(yè)務(wù)流量在穿越DCI時(shí)提供最高的可靠性保障;某游戲加速類客戶提出騰訊云國(guó)內(nèi)外多個(gè)邊緣數(shù)據(jù)中心到核心數(shù)據(jù)中心需要提供極低的網(wǎng)絡(luò)時(shí)延,這意味著DCI需要專門針對(duì)這類客戶提供定制化的網(wǎng)絡(luò)加速……我們突然發(fā)現(xiàn)網(wǎng)絡(luò)面對(duì)的需求,不再是單純的討論網(wǎng)絡(luò)整體的質(zhì)量效率成本,而是需要針對(duì)不同客戶提供靈活的、定制化的網(wǎng)絡(luò)服務(wù)。網(wǎng)絡(luò)核心能力三要素也需要進(jìn)行一個(gè)重要的補(bǔ)充——差異化服務(wù)。
分層解耦,開(kāi)放靈活的網(wǎng)絡(luò)服務(wù)
騰訊云早在2018年就推出了提供全網(wǎng)互聯(lián)服務(wù)的云聯(lián)網(wǎng)(Cloud Connect Network,CCN)產(chǎn)品,為客戶提供云上私有網(wǎng)絡(luò)間(VPC)、VPC與本地?cái)?shù)據(jù)中心間(IDC)內(nèi)網(wǎng)互聯(lián)的服務(wù),具備全網(wǎng)多點(diǎn)互聯(lián)、路由自學(xué)習(xí)、鏈路選優(yōu)及故障快速收斂等能力。幫助客戶輕松構(gòu)建極速、穩(wěn)定、安全、靈活的全球互聯(lián)網(wǎng)絡(luò)。
云聯(lián)網(wǎng)對(duì)客戶的網(wǎng)絡(luò)意圖進(jìn)行轉(zhuǎn)譯解析,拆分成不同的網(wǎng)絡(luò)任務(wù)執(zhí)行,極大的簡(jiǎn)化了客戶對(duì)于云上網(wǎng)絡(luò)的運(yùn)維復(fù)雜度。但在物理網(wǎng)絡(luò)層執(zhí)行時(shí),受限于傳統(tǒng)數(shù)通網(wǎng)絡(luò)設(shè)備的種種限制(如相對(duì)固化的軟硬件實(shí)現(xiàn),性能規(guī)格限制等),很難實(shí)現(xiàn)細(xì)粒度的差異化服務(wù),而傳統(tǒng)的基于業(yè)務(wù)優(yōu)先級(jí)的QoS能力,已經(jīng)遠(yuǎn)遠(yuǎn)無(wú)法滿足公有云百萬(wàn)級(jí)客戶的個(gè)性化需求。所以,我們需要一款對(duì)上可以與云聯(lián)網(wǎng)聯(lián)動(dòng),對(duì)下可以按客戶粒度進(jìn)行精細(xì)化調(diào)度,并且直接參與報(bào)文數(shù)據(jù)轉(zhuǎn)發(fā)的,可以快速靈活迭代的網(wǎng)絡(luò)產(chǎn)品。符合這些特點(diǎn)的,就是一款騰訊自研NFV產(chǎn)品,我們把它命名為vDCI。
vDCI產(chǎn)品的誕生,也標(biāo)志著騰訊DCI從SDN時(shí)代正式演進(jìn)到了SDN+NFV時(shí)代。
這是一張vDCI產(chǎn)品的落地場(chǎng)景圖,vDCI在接收到從數(shù)據(jù)中心發(fā)出的流量后,通過(guò)Overlay技術(shù)為每個(gè)客戶構(gòu)建一個(gè)獨(dú)立的專屬網(wǎng)絡(luò)平面,并在專用平面內(nèi)基于客戶的不同業(yè)務(wù)類型進(jìn)行精確匹配和靈活的按需調(diào)度,同時(shí)確保不同客戶間互不影響。
vDCI作為騰訊DCI的流量出入口,通過(guò)隧道技術(shù)在低時(shí)延、高質(zhì)量、低成本網(wǎng)絡(luò)路徑間進(jìn)行精細(xì)化的選路調(diào)度;同時(shí)也通過(guò)vDCI這個(gè)虛擬平面,將個(gè)性化的業(yè)務(wù)需求與物理網(wǎng)絡(luò)解耦,vDCI專注于滿足業(yè)務(wù)的靈活調(diào)度需求,底層物理網(wǎng)絡(luò)則聚焦于網(wǎng)絡(luò)性能和可靠性的持續(xù)提升。
上圖展示了vDCI產(chǎn)品的服務(wù)能力和高可靠性能力。首先是通過(guò)高速加密隧道,實(shí)現(xiàn)多種網(wǎng)絡(luò)資源的靈活利用,同時(shí)保證業(yè)務(wù)的安全性;通過(guò)vDCI的可編程能力,支持業(yè)務(wù)自定義調(diào)度標(biāo)識(shí),幫助客戶可以按照不同的業(yè)務(wù)類型進(jìn)行差異化調(diào)度選擇;同時(shí)vDCI產(chǎn)品通過(guò)與底層物理網(wǎng)絡(luò)在控制面和轉(zhuǎn)發(fā)面的聯(lián)動(dòng)提供靈活的多級(jí)調(diào)度,客戶可以在多個(gè)網(wǎng)絡(luò)路徑中,按需選擇時(shí)延最低、成本最低或質(zhì)量最優(yōu)的線路,甚至可以在不同的網(wǎng)絡(luò)中進(jìn)行按需的調(diào)度和切換;最后通過(guò)騰訊自研SDN控制器和調(diào)度算法,實(shí)現(xiàn)客戶可自定義的、多維度組合的調(diào)度策略,比如“在滿足指定的時(shí)延范圍內(nèi),選擇成本最低的線路”,“在滿足指定可用率范圍內(nèi),選擇時(shí)延最小的線路”等等,以幫助公有云產(chǎn)品盡可能的滿足客戶個(gè)性化的網(wǎng)絡(luò)需求。
vDCI作為一款全自研產(chǎn)品,除了在差異化服務(wù)能力方面的提升,在高可靠性方面也做了豐富的設(shè)計(jì)。首先是通過(guò)vDCI產(chǎn)品自身發(fā)送亞秒級(jí)的高精度探測(cè)報(bào)文,基于每條隧道進(jìn)行實(shí)時(shí)探測(cè),一旦檢測(cè)到異常,可以按照制定好的運(yùn)營(yíng)策略(異常的判定條件和運(yùn)營(yíng)策略均支持客戶自定義或使用騰訊云推薦值),實(shí)現(xiàn)多級(jí)的保護(hù)切換?;趫D中展示的鏈路級(jí)、路徑級(jí)、網(wǎng)絡(luò)級(jí)三級(jí)調(diào)度能力,可按需進(jìn)行端口級(jí)、設(shè)備級(jí)、路徑級(jí)、平面級(jí)、網(wǎng)絡(luò)級(jí)5級(jí)切換,以保證在異常場(chǎng)景下,仍然盡量滿足客戶的原始選路訴求。為客戶提供了多級(jí)快速故障自愈能力,這在傳統(tǒng)網(wǎng)絡(luò)中是非常難做到的。截至2021年底,vDCI產(chǎn)品已經(jīng)完成了騰訊云全球Region的覆蓋部署,穩(wěn)定運(yùn)營(yíng)超過(guò)6個(gè)月,為多種類型客戶提供了定制化DCI加速服務(wù)。
端網(wǎng)協(xié)同,打造極致網(wǎng)絡(luò)
如果僅僅將vDCI作為DCI的流量入口,則不得不為了實(shí)現(xiàn)少部分客戶的精細(xì)化調(diào)度需求,需要將全部用戶的流量都引入到vDCI,這可能會(huì)帶來(lái)額外的成本開(kāi)銷。所以接下來(lái)vDCI將通過(guò)自研網(wǎng)絡(luò)協(xié)議,實(shí)現(xiàn)數(shù)據(jù)轉(zhuǎn)發(fā)面直接與業(yè)務(wù)網(wǎng)關(guān)系統(tǒng)的對(duì)接,實(shí)現(xiàn)端側(cè)的按需引流。后續(xù)隨著Smartswitch、SmartNIC的規(guī)模上線,vDCI可以以更靈活的方式與業(yè)務(wù)進(jìn)行聯(lián)動(dòng),實(shí)現(xiàn)端網(wǎng)協(xié)同調(diào)度。這也標(biāo)志著DCI網(wǎng)絡(luò)系統(tǒng)從控制面到轉(zhuǎn)發(fā)面的全面開(kāi)放,讓上層業(yè)務(wù)可以靈活、高效的享用底層網(wǎng)絡(luò)提供的豐富的服務(wù)能力。
結(jié)語(yǔ)
最后總結(jié)一下騰訊DCI的演進(jìn)歷程,首先通過(guò)B2網(wǎng)絡(luò)和自動(dòng)化運(yùn)營(yíng)平臺(tái),解決了業(yè)務(wù)對(duì)于網(wǎng)絡(luò)質(zhì)量、效率、成本的最基礎(chǔ)需求;然后通過(guò)vDCI+SDN調(diào)度算法,實(shí)現(xiàn)了為業(yè)務(wù)提供差異化服務(wù)能力;接下來(lái)基于管理面、控制面、轉(zhuǎn)發(fā)面全棧自研的騰訊DCI網(wǎng)絡(luò)平臺(tái),通過(guò)高精度網(wǎng)絡(luò)度量和數(shù)據(jù)建模與分析,進(jìn)一步深入理解業(yè)務(wù),更好的幫忙云上客戶產(chǎn)生價(jià)值。