ICCSZ訊 2019年8月, 網絡界的兩大盛會,ACM Sigcomm2019和APNet’19在北京相繼召開,來自世界各地的網絡界精英齊聚北京,共同分享他們在網絡研究中的成果和面臨的挑戰(zhàn)。兩個大會都從如何解決傳統(tǒng)TCP協(xié)議面臨的問題入手,提出了各種不同層面的解決方案,從4G/5G無線網絡,到邊緣數據中心網絡,到核心數據中心,再到跨數據中心的網絡等。
在數據中心網絡的報告中,RDMA的大規(guī)模應用和網絡擁塞控制成為了兩個大會上的熱門話題,多篇論文談到了這個問題和他們的解決方案。其中的兩片論文《HPCC: High Precision Congestion Control》和《Gentle Flow Control: Avoiding Deadlock In Lossless Networks》收到了格外的關注。
《HPCC: High Precision Congestion Control》是由哈佛大學、阿里巴巴公司和劍橋大學聯(lián)合發(fā)表,該論文介紹了由于RDMA技術的性能優(yōu)勢,基于RDMA技術的網絡已經在數據中心中得到大規(guī)模部署,但是隨著部署規(guī)模的越來越大,傳統(tǒng)的擁塞控制CC(Congestion Control)機制暴露出了其局限性,如收斂速度、穩(wěn)定性、配置復雜等。為了解決這個問題,本論文中介紹了HPCC(High Precision Congestion Control)技術,利用交換機網絡遙測技術(INT)來獲得精確的鏈路負載信息,并通知到發(fā)送端,由發(fā)送端根據鏈路負載進行流量調整;同時通過將Per-ACK的Reaction做成Per-RTT的Reaction,來確保高性能的傳輸下不會出現Over-React。從而實現了高速且高精度的擁塞控制- High Precision Congestion Control。這個實現對于RDMA技術的大規(guī)模應用起到了很重要的作用,為廣大的RDMA用戶提供了新的思路和方向。隨著數據中心的規(guī)模增大,RDMA技術成為了保障數據中心性能的重要手段,傳統(tǒng)的TCP網絡中的很多技術已經不能適應高速RDMA網絡的需求,新技術的涌現推動力RDMA技術在大規(guī)模數據中心中應用的成熟。
清華大學代表在介紹其論文《Gentle Flow Control: Avoiding Deadlock In Lossless Networks》時強調,無論是計算還是存儲,分布式系統(tǒng)已經成為了提升性能的必經之路,很多基于分布式系統(tǒng)的應用都需要無損網絡的支持。傳統(tǒng)的無損網絡實現方案(如PFC等)有時會帶來網絡的死鎖,目前面向解決網絡死鎖的方案增加了網絡配置的復雜度,同時也影響到了網絡的性能。針對這個問題,清華大學提出了溫和流量控制(GFC)的方式來控制端口速率,使所有端口都能保持數據包的流動,即使存在循環(huán)緩存區(qū)的依賴關系,也可以避免網絡的死鎖。清華大學還用實驗和仿真驗證了GFC的實現和對網絡帶寬的影響(小于0.5%)。這篇文章提供了另一種實現大規(guī)模RDMA應用的思路,值得數據中心用戶去借鑒。
Mellanox公司作為RDMA技術和設備的主要提供商,RDMA技術正在成為以數據為中心的計算模型的關鍵,如何快速、安全的傳輸和處理數據,直接關系到數據中心性能的好壞。在Sigcomm和APNet這兩個大會中,關于對RDMA、無損網絡、擁塞控制等的探索和研究,為RDMA技術的大規(guī)模應用起到了積極的推動作用,證明了RDMA大規(guī)模應用的可行性。Mellanox的網絡計算(In-Network Computing)技術,除了RDMA以外,更是添加了SHARP(Scalable Hierarchical Aggregation and Reduction Protocol, 在交換機中做通信計算) 技術, SHIELD(Self Healing Technology,網絡自愈) 技術, AR(Adaptive Routing,動態(tài)路由) 等新的技術來面對傳統(tǒng)以CPU為核心的數據中心面臨的通信和計算的瓶頸問題,通過新的網絡計算技術,將網絡變成了IPU(I/O Process Unit),將計算工作分散到了數據中心的各個單元,計算將會發(fā)生在最合適的地方,而不是必須要發(fā)送到CPU再做計算,實現了真正的以數據為中心。 In-CPU Computing,In-Network Computing和In-Storage Computing的有效整合,將會是構建未來高性能數據中心的關鍵。網絡作為CPU到CPU, CPU到存儲以及存儲到存儲之間通信的必經之路,已經成為了數據中心性能的最大挑戰(zhàn)。新的挑戰(zhàn)需要新的技術來解決,增加蠟燭的數量不能發(fā)明電力;增加CPU的數量、網絡的帶寬和降低網絡的延遲不再能解決目前數據中心的挑戰(zhàn),我們需要新的創(chuàng)意、新的技術來構建下一代的數據中心。
Mellanox 公司的英文全稱是 Mellanox Technologies(中文名:邁絡思),是一家在全球范圍內為服務器和存儲提供端到端InfiniBand和以太網智能互連解決方案及服務的領軍企業(yè)。Mellanox互連解決方案憑借其低延遲、高帶寬、網絡計算等優(yōu)勢, 可在應用之間快速地傳遞數據,提升系統(tǒng)性能和提高數據安全性,極大地提升了數據中心效率。Mellanox的端到端高速互連產品包括: 網卡、交換機、線纜、光模塊、軟件和芯片等,用以加速應用的性能、優(yōu)化業(yè)務的投資回報率,覆蓋云服務、超大規(guī)模數據中心、高性能計算、人工智能、企業(yè)級數據中心、網絡安全、存儲以及金融服務等各個行業(yè)。更多信息請關注:www.mellanox.com。