ICCSZ訊 Facebook宣布正在打造架頂100Gbit/s的以太網(wǎng)交換機,以用于其下一代數(shù)據(jù)中心上。很多大互聯(lián)網(wǎng)公司都在設計自己的系統(tǒng),務必緊隨先進的計算和半導體技術的步伐。
Facebook的Wedge 100是一個32×100G交換機,據(jù)傳用的是Broadcom最新Tomahawk交換芯片,最大總吞吐量達3.2 Tbit/s。和以往一樣,Facebook會開源自己的硬件設計,以供他人制造和使用。預計Wedge 100將運行一個名為FBOSS的開源Linux軟件,Facebook目前在40G交換機上用的就是FBOSS。
今年8月,Facebook光學專家描述過一個利用100G單模光纖調(diào)制解調(diào)器將100G成本降到1美元/Gbyte的設計。該設計將距離要求從2公里放寬到了500米,同時也放寬了工作溫度和產(chǎn)品壽命規(guī)格。它是基于QSFP28可插拔外形,用了4個25Gbit/s的線路。
Facebook沒有提供Wedge 100部署時間的細節(jié),也沒有給出如何處理來自100G TOR交換機匯總數(shù)據(jù)的細節(jié)。
不到18個月前??,網(wǎng)絡巨頭Facebook曾公布過旗下正在設計40Gbit/s的TOR以太網(wǎng)交換機,此為Wedge第一代。此項工作是在2013年底與交換芯片制造商會面后開始的。
Facebook將上述設計重新定向為所謂的“6-pack”的匯聚交換機。該系統(tǒng)是Facebook一年前宣布新數(shù)據(jù)中心架構(gòu)的重要組成部分。
今年三月,Facebook展示了自己的基于Broadcom Trident II 芯片的16×40G Wedge,然后又將其設計成線路卡和一個雙插槽卡,用于創(chuàng)建128×40GE 6-pack匯聚交換機,基于可以升級到100G接口版的10G的通道,通道可升級到25G。
當時,Facebook的工程師表示正在弄32×100GE交換機,并有計劃用到100G和400G光鏈路。
一名Facebook工程師在電子郵件表示,“我們現(xiàn)在在生產(chǎn)線上使用成千上萬的Wedge 40 TOR交換機,我們預計將繼續(xù)在相當長一段時間內(nèi)使用它。”
他表示,“我們?nèi)蕴幱谑褂肳edge100初期階段,等一切就緒后就可以用到我們的下一代數(shù)據(jù)中心上。我們的最終目標是在我們所有的數(shù)據(jù)中心的架頂上使用Wedge。”
與來自Arista 和 Dell的同款100G芯片比,Facebook設計針對自己的數(shù)據(jù)中心系統(tǒng)做的優(yōu)化想必更嚴謹些,價格想必更便宜些。和其他網(wǎng)絡巨頭一樣,Facebook設計自己的龐大計算機網(wǎng)絡系統(tǒng),其規(guī)模之大可以想象。
大型數(shù)據(jù)中心的容量已 接近計算機網(wǎng)絡技術的極限。各種基于50G結(jié)構(gòu)的400G交換機仍在實驗室里,800G以太網(wǎng)標準也是最近才定稿。
The Linley Group高級分析師Bob Wheeler表示,“那種用16x25Gbit/s技術的400G以太網(wǎng)提供的價值不大,而50Gbit/s技術是關鍵”,對下一代系統(tǒng)來說是這樣。他表示,“有些供應商目前正在制56Gbit/s PAM4PHY樣品。光模塊可望在2017年投產(chǎn)。”
Facebook在一篇博客文章公布了Wedge 100的進展。博文還提供了目前40G交換機的可用性程度的一些細節(jié)以及其在使用時遇到的挑戰(zhàn)。
博文指,“常常見到的交換機失效模式是,CPU出現(xiàn)過載后滯后于控制平面的職責,比如發(fā)送路由協(xié)議報文或?qū)SIC編程這一類的職責,這時通信就會出現(xiàn)中斷。”
博文稱,“在我們的早期測試過程中,我們遇到一些情況,凸顯出保護CPU和控制平面是非常重要的。我們現(xiàn)在的配置對從交換機ASIC發(fā)往CPU的流量設了硬性限制。此外,我們將控制平面流量的優(yōu)先級別設得比交換機高,以盡量保證組件的控制平面處于運行狀態(tài)。“