全球電腦製造商借助NVIDIA人工智慧技術創突破性的基準測試結果

賴品如／台北
2021-07-02
分享

根據最新公布的MLPerf基準測試結果，NVIDIA(輝達)的合作夥伴目前提供用於訓練人工智慧(AI)的GPU加速系統，其速度較任何系統更快。

七間公司在最新一輪的產業基準測試中，提交至少十多套市售系統進行測試，其中大多為NVIDIA認證系統。NVIDIA 與戴爾 (Dell)、富士通 (Fujitsu)、技嘉 (GIGABYTE)、浪潮 (Inspur)、聯想 (Lenovo)、寧暢 (Nettrix) 及美超微 (Supermicro) 共同展示了使用 NVIDIA A100 Tensor核心GPU 訓練神經網路，所創造出引領業界的亮眼表現。

只有NVIDIA及其合作夥伴完整進行最新一輪基準測試中的8項作業負載。整體來說，搭載NVIDIA技術的提交資料共佔了四分之三以上，且結果十分漂亮。

與2020年的成績相比，我們的效能表現提升了3.5倍。針對需要使用龐大運算資源的大規模作業，我們從破記錄的4,096個GPU中集結資源，較任何其他參與測試的產品都還要更多。

MLPerf 為何如此重要

這是NVIDIA商業生態系第四度參加MLPerf訓練測試，也是表現最為亮眼的一次。MLPerf為2018年5月成立的產業基準測試組織。

MLPerf的測試成果讓用戶能在充分瞭解的情況下進行購買決策，並獲得數十間業界領導者的支持，包含阿里巴巴、Arm、百度、Google、英特爾(Intel)與NVIDIA等，其測試結果兼具透明性和客觀性。

這項測試基準以目前最熱門的AI作業負載和場景為基礎，涵蓋電腦視覺、自然語言處理、推薦系統、強化學習等，而訓練基準則聚焦於用戶最為關心的事情，也就是訓練一個全新AI模型所需耗費的時間。

速度加上彈性造就生產力

最終，客戶基礎設施投資的回報取決於他們的生產力。這來自於在運行多種AI作業負載時既快速又靈活的能力。因此，這就是為什麼使用者需要一套靈活且強大的系統，能夠快速將各種AI模型投入生產環境並縮短上市時間，同時徹底發揮寶貴的資料科學團隊的生產力。

根據最新的MLPerf測試結果，NVIDIA AI平台在商用AI超級電腦類別的所有8項基準測試中以最短的時間訓練模型，創下了效能記錄。

根據最新的TOP500排名，我們在當今世界上最快的商用AI超級電腦上進行大規模測試。Selene超級電腦與排行榜上其他十多套系統一樣，皆採用NVIDIA DGX SuperPOD架構。擴展到大型叢集的能力是AI領域最艱鉅的挑戰，也是我們的核心優勢之一。

在晶片對晶片的比較中，NVIDIA及合作夥伴在最新的商用系統測試中創造8項基準測試的紀錄。整體來說，下方的測試結果顯示我們的效能在兩年半內提升了6.5倍，這證明了可以在GPU、系統和軟體的全堆疊(full-stack)NVIDIA平台上進行作業。

廣泛的生態系提供最佳價值和選擇

MLPerf結果展示了各種基於NVIDIA的AI平台，以及許多創新系統的效能，包含從入門的邊緣伺服器到搭載數千個GPU的AI超級電腦。

參與最新基準測試的近20家雲端服務供應商和OEM廠商，NVIDIA的7個合作夥伴名列其中，其本地端的產品或計劃採用NVIDIA A100 GPU的雲端執行個體、伺服器和 PCIe 卡中，包括近40個NVIDIA認證系統。我們的合作夥伴生態系為客戶提供廣泛的部署模型選擇，從按分鐘出租的執行個體到本地端的伺服器和託管服務，皆提供業內最高的價值。

所有MLPerf的測試結果都顯示了我們的效能持續在提升，這是因為我們的平台擁有成熟且不斷進化的軟體，讓團隊可以快速開始使用持續精進的系統。

我們是如何做到的

這是我們A100 GPU第二次參與MLPerf測試。在另一篇文章中，詳細描述了GPU、系統、網路與AI軟體等方面的進步如何提升運算速度。舉例來說，我們的工程師找到了一種使用CUDA Graphs啟動全神經網路模型的方法，CUDA Graphs是一套由NVIDIA CUDA運作項目及其依賴項目構成的軟體套裝。

如此一來便消除過去測試時CPU遇到的瓶頸，這些測試將AI模型作為許多單獨元件(kernel)的鏈來進行釋放。此外，大規模測試使用NVIDIA SHARP，該軟體可以整合網路交換器中的多項資料傳輸作業、減少網路流量與等待CPU處理的時間。

結合 CUDA Graphs 與 SHARP，使得資料中心可以運用破紀錄的GPU數量來進行訓練工作。這是如自然語言處理等許多領域所需要使用到的運算能力，在這些領域裡的 AI 模型規模持續成長，其包含數十億個參數。其他優勢包含最新的A100 GPU將記憶體頻寬增加近30%，達到每秒超過2 terabytes(TB)的記憶體頻寬。

來自客戶對於MLPerf的回饋

各類型的AI用戶皆認為這些基準測試為其帶來實質的幫助。瑞典Chalmers University的發言人表示：「MLPerf基準測試提供針對多個跨AI平台且清楚的同類型比較，以展現其應用於各種真實案例的實際效能表現。」該大學進行從奈米技術到氣候研究等領域的研究工作。

這些基準幫助使用者找到能夠滿足全球部分規模最大、最先進工廠所要求的AI產品。例如，全球頂尖晶片製造商台積電，使用機器學習來提升光學鄰近效應修正功能(OPC)與蝕刻模擬(etch simulation)的表現。

台積電OPC部門主管Danping Peng表示：「為了充分發揮機器學習在模型訓練和推論的能力，我們與NVIDIA工程團隊合作，將Maxwell模擬與反向微影技術引擎轉移到GPU上，並看見執行速度大幅提升。MLPerf基準測試是協助我們做出決定的一項重要因素。」

在醫學與製造領域逐漸受到青睞

這些基準也有助於研究人員突破AI的極限，以提升醫療保健水準。德國癌症研究中心DKFZ的醫學影像運算部門負責人Klaus Maier-Hein表示：「我們與NVIDIA密切合作，將3DUNet等創新技術帶入醫療保健市場。產業標準的MLPerf基準測試提供相關的效能資料，讓IT組織和開發人員能夠取得精確的解決方案，以加速推動其特定專案和應用項目。」全球研究與製造領域的領導者三星電子(Samsung)，在導入AI的過程中採用MLPerf基準測試，以提高產品效能及製造生產力。

三星電子的發言人表示：「我們必須具備最佳的運算平台，才能將先進的AI技術加以產品化。MLPerf基準測試提供一個公開且直接的評估方法，讓我們能夠統一評估各平台供應商，進而簡化選擇的過程。」

取得相同的測試結果和工具

MLPerf的資料儲存庫提供最新測試所使用的各套軟體，因此，所有人皆可重現我們的基準測試結果。我們會持續將這些程式碼加入深度學習架構和容器中，使用者可以在NVIDIA的GPU應用程式軟體中心NGC上取得。它是全堆疊AI平台的一部分，經過最新的產業基準驗證，並且能夠從個個合作夥伴取得，用以處理當前真正的AI工作。

關鍵字

GPU NVIDIA AI

加入已選取到「關鍵字追蹤」什麼是「關鍵字追蹤」

全球電腦製造商借助NVIDIA人工智慧技術 創突破性的基準測試結果

全球電腦製造商借助NVIDIA人工智慧技術創突破性的基準測試結果