Mellanox網路運算解決資料中心AI架構瓶頸提升運算效能

尤嘉禾
2019-08-08
分享

Mellanox市場開發高級總監宋慶春。

現今資料成長快速，企業日益重視資料蒐集的工作。過去資料中心是以CPU為核心現在正轉變為以資料為核心，也就是資料在哪裡運算工作就在那裡。所以有CPU運算、GPU運算、網路運算、儲存運算等，各種運算組合在一起就是現在新一代資料中心最好的架構。

Mellanox市場開發高級總監宋慶春解釋為何資料中心有此轉變，因現行的資料中心架構在進行AI運算時會面臨網路瓶頸與運算瓶頸問題。網路瓶頸是指當GPU做完機器學習運算後，會把運算結果傳送到某台參數伺服器上，由這台來做資料聚合(data aggregation)，然後做參數更新，再把新的參數送到每台執行運算的GPU上。如此一來所有資料傳到某一特定伺服器CPU，會有多對一的通訊並導致網路產生瞬間爆量，若處理不好可能產生掉封包，並可能使training及inference的產出結果不正確，若要重傳資料，則會使效能下降。運算瓶頸則是當GPU做完training運算還未得到新的參數前沒辦法做下一輪運算，當CPU未處理完所有資料的彙集，無法更新參數，其他GPU無法執行運算因而導致瓶頸。

因此以資料為中心的架構，是當CPU、GPU做完運算，結果傳送到網路交換器上即可做資料聚合，做barrier或Allreduce，可自動更新新的參數，不需把資料傳輸到某個CPU、GPU上，可縮短運算時間及等待時間，解決兩種瓶頸。

從資料蒐集、分析、建模、推論的流程來看，Mellanox的智慧網路設備可以在檔案系統/資料庫、儲存系統、資料分析、機器學習等各環節上協助提升效能。以資料訓練來說，目前GPUDirect RDMA(Remote Direct Memory Access)技術十分熱門，就是在GPU記憶體之間建立通路，之前跨伺服器的GPU memory要做資料交換時，資料需在GPU memory與CPU memory之間做很多記憶體複製，導致效能下降且CPU使用率提高，透過RDMA可得到更多溝通效率，效能提升達10倍。在資料分析方面，Mellanox的SparkRDMA把Spark移到RDMA上，亦達到2倍以上執行效能的提升。

關鍵字

伺服器 CPU 資料中心 Mellanox

加入已選取到「關鍵字追蹤」什麼是「關鍵字追蹤」

議題精選－2019雲端大數據論壇專輯

Mellanox網路運算解決資料中心AI架構瓶頸 提升運算效能

Mellanox網路運算解決資料中心AI架構瓶頸提升運算效能