NVIDIA A100登陸AWS象徵加速雲端運算未來開端
Amazon Web Services(AWS)的首個GPU執行個體於十年前亮相,搭載的是NVIDIA M2050。當時以CUDA為基礎的應用程式主要集中在加速科學模擬,而人工智慧(AI)和深度學習的興起還遙遙無期。此後AWS又陸續加入穩定的雲端GPU執行個體,包括K80(p2)、K520(g3)、M60(g4)、V100(p3/p3dn)和T4(g4)。隨著全新P4d執行個體正式上路,AWS將在最新NVIDIA A100 Tensor Core GPU的支援下,為加速運算領域的下一個十年打穩基礎。
全新P4d執行個體為機器學習訓練與高效能運算應用程式,提供AWS上採用GPU之最高效能、最具成本效益的平台。與預設的FP32精準度相比,使用FP16的執行個體訓練機器學習模型的時間縮短了三倍,使用TF32進行訓練的時間縮短了六倍。這些執行個體亦提供了極為卓越的推論表現。上個月,NVIDIA A100 GPU於MLPerf Inference基準測試項目中所向披靡,其效能較CPU快上237倍。
每個P4d執行個體皆搭載8個NVIDIA A100 GPU,客戶可以透過AWS UltraClusters 使用AWS Elastic Fabric Adaptor (EFA),以及提供可擴展高效能儲存裝置的Amazon FSx,每次依需求調整規模以取得超過4,000個GPU。P4d提供400Gbps網路,並且使用NVIDIA的NVLink、NVSwitch、NCCL及GPUDirect RDMA等技術,進一步加速處理深度學習訓練的作業負載。
EFA上的NVIDIA GPUDirect RDMA在伺服器之間將資料從GPU傳遞到 GPU,無需通過CPU和系統記憶體,確保低延遲的網路。此外,許多 AWS服務都支援P4d執行個體,包括Amazon Elastic Container Services、Amazon Elastic Kubernetes Service、AWS ParallelCluster及Amazon SageMaker。P4d還能使用NGC所提供的各種經過優化的容器化軟體,包括高效能運算應用程式、AI架構、預先訓練模型、Helm chart,以及TensorRT和Triton推論伺服器等推論軟體。
現在可於美國東部和西部地區使用P4d執行個體,很快地將會開放給其他地區使用。用戶能夠以隨需執行個體(On-Demand)、Savings Plans、預留執行個體(Reserved Instance)或Spot執行個體等方式來購買。GPU雲端運算的第一個十年,已經將超過100 exaflops 的 AI運算能力帶入市場。現在有了NVIDIA A100 GPU支持的Amazon EC2 P4d執行個體,將為GPU雲端運算領域的下一個十年開創美好的開端。NVIDIA與AWS攜手打造許多應用程式,並不斷突破AI的發展。


_bigbutton.gif)



