2017年6月22日, 加州訊,世界領先的高性能計算、數(shù)據(jù)中心端到端互連方案提供商Mellanox(納斯達克交易所代碼: MLNX)今日宣布,目前已有大量先進的深度學習框架(如TensorFlow™、Caffe2、Microsoft Cognitive Toolkit 和百度 PaddlePaddle)借助Mellanox的智能卸載功能,為多臺人工智能服務器提供世界領先的性能和近線性擴展能力。Mellanox的RDMA和網絡內計算卸載以及 NVIDIA® GPUDirect™ 是幫助用戶最大限度發(fā)揮其應用性能和系統(tǒng)效率的關鍵技術。
如今,很多行業(yè)和研究小組都開始利用深度學習技術解決大數(shù)據(jù)難題,如自然語言處理、語音識別、計算機視覺、醫(yī)療保健、生命科學、金融服務等等。全球最先進的機器學習平臺采用Mellanox以數(shù)據(jù)為核心的高效卸載架構,將引領這些行業(yè)邁入高性能和高可擴展性的新時代。
TensorFlow 是一個開源軟件庫,最初由 Google 機器智能研究團隊的研究人員和工程師開發(fā)。通過加入 RDMA 技術來取代傳統(tǒng) TCP,TensorFlow 的節(jié)點間數(shù)據(jù)交換性能提升了1 倍,可實現(xiàn)更快的圖像處理。
百度的PaddlePaddle(并行分布式深度學習)是一個靈活、可擴展的深度學習平臺。PaddlePaddle 支持多種神經網絡體系架構和優(yōu)化算法,因此可以輕松使用大量CPU和GPU來加速訓練。通過RDMA技術,PaddlePaddle可實現(xiàn)高吞吐量和高性能,借助NVIDIA 和 Mellanox聯(lián)合架構更先進的加速功能,能夠將深度學習的訓練速度提高1倍。
“先進的深度神經網絡需要有智能互連方案作為支撐,可使其擴展到多個節(jié)點,并且獲得最快的數(shù)據(jù)傳輸速度,從而提高算法效率并縮短訓練時間” ,Mellanox公司市場部副總裁 Gilad Shainer 表示。 “借助Mellanox的技術和解決方案,機器集群現(xiàn)在能夠以最佳的學習速度、準確性和擴展能力,突破最苛刻的認知計算應用極限。”
“深度學習應用的開發(fā)人員可以采用優(yōu)化框架和 NVIDIA 即將推出的 NCCL 2.0 庫,NCCL 2.0實現(xiàn)了對 InfiniBand的原生支持,多節(jié)點通信時會自動選擇 GPUDirect RDMA技術,或在可用時為節(jié)點間通信選擇NVIDIA NVLink” ,NVIDIA公司平臺聯(lián)盟部總監(jiān)Duncan Poole 表示。 “NVIDIA NVLink技術用于基于 Pascal 的 Tesla P100系統(tǒng),該系統(tǒng)包括配有四塊Mellanox ConnectX®-4 100 Gb/s網卡的 NVIDIA DGX-1人工智能超級計算機。這樣一來,開發(fā)人員可以專注于創(chuàng)建新的算法和軟件功能,而不再需要對低層級通信集合進行性能調優(yōu)。”