AMD祭出MI300能否動搖NVIDIA領導地位 還有待觀察 智慧應用 影音
vishay
IC975

AMD祭出MI300能否動搖NVIDIA領導地位 還有待觀察

  • 陳婉潔DIGITIMES企劃

隨著AMD在2023年初發布MI300更多產品細節後,面對在AI模型訓練市場早已居於龍頭地位的NVIDIA,早已在2022年9月發布新一代GPU架構的L40,為AI模型訓練市場提供了更為細緻的產品選擇,AMD要如何憾動NVIDIA的地位,恐怕將是2023年下半需要觀察的重點。

眾所皆知,在AI晶片市場領域,第一個想到的,通常是GPU大廠NVIDIA(輝達),其原因無它,關鍵在於NVIDIA利用GPU的平行運算優勢,以高性能運算的作法,短時間處理許多複雜的AI運算工作,加上過去自CUDA面市以來所累積的用戶基礎與生態系統資源,讓AI風潮再次吹起之時,讓客戶開發AI相關的應用時,能得以快速上手,所以也讓NVIDIA在AI晶片領域依然屹立不搖。

NVIDIA伺服器主要GPU晶片簡要規格一覽。DIGITIMES攝

NVIDIA伺服器主要GPU晶片簡要規格一覽。DIGITIMES攝

NVIDIA歷代伺服器GPU產品發展奠定HBM重要性

若是熟悉NVIDIA的GPU產品策略發展走向,可以清楚地知道NVIDIA的作法是先從GPU架構進行創新,像是專門處理AI運算工作的Tensor Core,以及處理光線與影像運算的RT Core(光影追蹤核心),再依照伺服器、桌機、筆電乃至於車用等終端應用在運算資源需求上的不同,配置出不同運算單元數量的GPU晶片,再基於這樣的基礎,從AI的模型訓練與事件推論,導入對應的記憶體類別。

自Pascal架構時代開始,NVIDIA就已經鎖定AI模型訓練領域,搭配HBM(高頻寬記憶體)第二代版本,開發出專用的Tesla P100 GPU,緊接著在Volta、Ampere乃至於Hopper架構,所推出的伺服器與資料中心專用的GPU,皆有導入HBM,而2022年5月,以Hopper架構為主的H100更是導入了HBM3,藉此提升GPU與記憶體之間的資料搬運速度,進一步強化其運算效能。至此,我們幾乎可以斷言,若要滿足AI模型訓練的運算工作需求,HBM及其先進封裝技術可以說是必要條件。

L40搭載Ada Lovelace架構,AI模型訓練晶片陣容更加完整

不過,隨著時序推移,NVIDIA在2023年發布另一GPU架構Ada Lovelace,依據NVIDIA官方說法,這兩種架構的先後推出,最為主要的原因還是在於滿足不同終端應用情境,所以可以看到Ada Lovelace架構已經陸續導入新一代遊戲顯示卡RTX產品線中,但值得留意的是,針對伺服器與資料中心,NVIDIA以Ada Lovelace架構為基礎,先後推出了L40與L4,兩款GPU都採用台積電5nm製程,所搭配的記憶體為GDDR6,其中L40的電晶體數量達763億,直逼H100的800億,與此同時,NVIDIA官方也宣稱,L40同樣也能支援AI的模型訓練工作,所以這也是NVIDIA投入AI模型訓練以來,推出首款導入GDDR6為主的GPU產品。

宏觀而言,H100與L40雖然都能擔綱AI模型訓練的角色,但兩款GPU產品在先天上架構上卻是存在著根本的差異性,H100沿續了A100的傳統,並未導入RT Core,所以顯而易見的是,L40也是第一款能處理影像資料、渲染工作與模擬與模型訓練的GPU,這也意味著,未來利用AI運算工作進行擬真生圖像與影片生成的應用場景的處理上,採用L40 GPU會更具效率,而H100就能專門處理非圖像與影像的資料模型訓練工作。甚至在功耗表現上,L40的最大功率輸出,僅有300瓦,相較於H100 SXM5版本或是PCIe Gen5版本,都有相對出色的表現。

再換言之,對於AI模型訓練領域的對應上,NVIDIA有意利用不同的產品來滿足相應的市場區隔,單以此點而言,其產品策略頗有細膩之感。

AMD祭出MI300能否動搖NVIDIA領導地位  仍有待觀察

而在近年來,在AI話語權上略為落後的AMD,也在2023年初發布了MI300的技術細節,MI300打破過往MI系列產品的設計架構,為伺服器與資料中心領域,首款整合CPU與GPU架構的APU(加速處理器)產品,同時搭載記憶體容量達128GB的HBM3,採取3D Chiplet的先進封裝作法,電晶體數量為1460億,相較於前一代的MI 250X,在AI模型訓練的效能上,多達八倍之多,顯然AMD有意向NVIDIA挑戰在AI模型訓練晶片市場的龍頭地位。

另一方面,由於MI300與NVIDIA未來即將要推出的Grace處理器(為搭載Arm CPU與Hopper架構GPU)的設計概念,並無二致,這也說明,AMD想透過這樣的產品試圖壓制NVIDIA在伺服器領域逐漸擴大的影響力,並給予反制。

然而,按理而言,過去NVIDIA早在推出Tesla V100之後,NVIDIA在伺服器與資料中心領域的影響力就與日俱增,最主要的原因在於NVIDIA近年不斷推出如HGX-1與DGX-1等伺服器系統產品,進一步加速了在資料中心的導入速度,再加上先前早已收購完成的Mellanox所擁有的DPU產品線,更深化了NVIDIA伺服器系統的運算效能,以及過去自CUDA面市後,其開發環境與函式庫皆緊密配合歷代GPU架構的演變,因此NVIDIA之所以能在伺服器與資料中心領域擁有極高影響力,的確其來有自。

然而,AMD過去在AI系統開發上,CPU與GPU各自分屬不同的開發環境與函式庫,2022年2月也完成了對Xilinx的收購,所以在AI系統的開發上,如何提供一致性的環境給客戶,並且無痛移轉?亦或是從系統整合性地思考,讓CPU與GPU,亦或是FPGA皆存在的情況下,讓客戶快速開發所需要的伺服器系統,成了AMD的亟需思考之處,不過AMD也在2022年六月的投資人大會上,發布AI Stack 2.0計畫,嘗試統一CPU、GPU與FPGA的開發環境,但面對NVIDIA早已累積相當雄厚的基礎,AMD能否靠MI300攻下NVIDIA所打下的江山,恐怕還有待觀察。

議題精選-COMPUTEX 2023