智慧應用 影音

Mellanox網路運算技術成為解決資料中心網路瓶頸的關鍵

2019/06/27 - 尤嘉禾

邁倫科技(Mellanox)一開始也和傳統端到端網路產品供應商一樣,透過傳統網路技術從網路層面來開發產品。「經過一番轉型,Mellanox特別推出『網路運算』(In-Network Computing)的新概念與新技術,」Mellanox亞太區市場開發高級總監宋慶春表示。

傳統資料中心、AI中心或高效能運算中心(HPC Center)在談到網路與CPU時,多半只會透過前者進行資料或應用的溝通,後者則進行運算,但在這種傳統思維下的基礎架構都遇到了瓶頸。也就是當所有資料移動到某特定CPU或特定伺服器上運算時,就會導致網路及CPU效能出現瓶頸。

以往解決之道就只是透過增加CPU/核心數量與時脈,或提升網路速度等方式,但最終仍無法有效解決效能瓶頸的問題。尤其當CPU/核心數愈多時,愈會出現I/O及網路通訊上的瓶頸。這個瓶頸最常出現在以AllReduce演算法進行深度學習訓練的模型上,因為當所有深度學習運算結果都需送到某顆CPU/GPU上進行結果的平均與聚合(Aggregation),然後再將參數送回到所有正在運算的GPU/CPU上去,就會形成多對一通訊,進而造成更嚴重的網路瓶頸。

為瞭解決這類問題,整個業界開始從傳統的CPU-Centric思維逐漸轉移到愈來愈火熱的以資料為中心(Data-Centric)概念。宋慶春強調指出,該概念的主要目的就在探討如何將原本的CPU導向主張,逐漸移轉成Data/HPC/AI Center上任何節點都可以運算的新思維,亦即不論網路或儲存都可變成運算的一部分。

透過Mellanox網路運算技術,便可將一些運算放到網卡、InfiniBand HCA卡或效能更佳的交換器上,如此一來,最終運算就能分散到資料中心任一地方,網路瓶頸問題便能迎刃而解。面對AllReduce演算法模型訓練,若要將其放到網路交換器上進行運算,那麼就非需要一台會計算的交換器才行。

Mellanox最高等級、最高速的交換器便可支援40埠(每埠200G)一共8TB的頻寬效能,其可將同時傳上來的數據經運算後讓整個資料量變小再往外送,進而消除了可能引起的網路瓶頸。值得一提的,Mellanox可確保上述運算不會犧牲掉網路效能,例如現在有40埠同時以200G速度傳送資料,即在做資料運算時也能保證任何傳輸埠都不會有降速度的狀況發生。「由此可見,Mellanox新推的網路運算技術,對今後DC/AI/HPC Center而言會是非常關鍵的技術,」宋慶春強調指出。

總之,網路運算技術是未來解決資料中心網路瓶頸的關鍵技術,以往交換器只會檢視資料表頭(Header),透過網路運算技術,除了表頭外,還會對資料封包負載(Payload)與通訊埠做真正的運算。

再者,資料中心難免會有某鏈路故障的狀況出現,以往都是透過管理軟體來更正新的路由路徑,但其效能很差,可能會造成延遲敏感度極高的應用程式停擺。Mellanox SHIELD技術對此改由交換器硬體自動找尋新路徑來取代,其效率甚至比管理軟體快上5,000倍,如此以來就不會對像是深度學習等關鍵應用造成影響。

最後,當資料中心規模愈來愈大時,想要快速將某問題定位出來絕對是項挑戰。Mellanox透過遙測技術可在1秒內做到上百萬次的取樣,再搭配WJH(Work Just Happen)技術,便能協助管理人員快速找出問題所在。

宋慶春指出,台灣一直是Mellanox一塊非常重要市場,儘管台灣市場規模不大,但台灣支援國際市場的重要半導體及各種硬體基地,Mellanox在台有專門支援ODM的專屬工程師。舉凡廣達、緯穎、富士康等公司旗下許多產品線,例如IC或Mezzanine卡都將Mellanox網路技術納入設計之中,今後使用者便可在這些產品中享受到該技術帶來的好處。

如欲瞭解更多Mellanox網路運算技術,歡迎報名參加7/11(四)2019雲端大數據論壇,宋慶春將發表「網路計算釋放數據的力量」專題演說,還有機會抽中「Nintendao任天堂Switch」或「小豹AI音箱」,活動完全免費,詳情請見活動網站


圖說:Mellanox亞太區市場開發高級總監宋慶春。