GB200等下世代GPU功耗顯著拉升 搭配氣液相輔成高階AI伺服器為未來3年主流方案
DIGITIMES Research觀察,隨著高階AI伺服器運算規格與功耗快速提升,散熱方案也跟隨晶片處理器的演進而加速研發與量產時程,2023年生成式AI應用開始大幅成長,帶來更高運算需求,也使處理器的熱設計功耗(Thermal Design Power;TDP)持續上升,傳統氣冷方案已無法有效散熱。
目前主流AI伺服器多採用NVIDIA H100 HGX 8顆版本,其整機TDP達7,500W以上,較傳統伺服器TDP平均3,000W高出許多。而NVIDIA在2024年GTC發表GB200 NVL72單一機櫃系統,搭配多達72顆GPU,整機櫃的TDP預期將達120KW,更為傳統通用型伺服器機櫃的12倍以上,高TDP也帶來高散熱需求,當傳統氣冷散熱能力不足,液冷散熱將成重點解決方案。
DIGITIMES Research認為,以目前技術發展與散熱需求成長速度來看,氣液相輔液冷散熱方案短期優勢較為明顯,氣液相輔方案除不需大幅變動伺服器設計與資料中心基礎架構,整體方案成本亦明顯低於全液冷方案,以上優勢將使氣液相輔液冷散熱方案成為未來3年資料中心業者的首選方案。
NVIDIA GB200、B200 GPU加速液冷散熱應用 液冷散熱市場規模2023~2030年CAGR將達21%
為使資料中心能夠滿足AI及HPC等高速運算需求,運算效能上升使功耗不斷提升的同時,伺服器機架功率密度也被要求提高,目前伺服器平均機架功率密度為15KW,AI高速運算資料中心的伺服器機架功率密度則高達100KW,高功率、高密度設計導致資料中心高能耗及高產熱問題不斷惡化,光憑傳統氣冷散熱技術已無法有效散熱,逐漸成熟的液冷散熱方案因有更好散熱能力,已開始受到巿場青睞。
DIGITIMES Research認為,2023年以前主流CPU、GPU的熱設計功耗皆低於500W,搭配氣冷散熱方案即可有效處理機器運作所產出的熱,因雲端生成式AI推論與訓練需求爆增,使業者對處理器、加速器的性能與功耗要求倍數提升,2023年NVIDIA發表的高階GPGPU H100,其TDP達700W,已超過500W的傳統氣冷散熱極限,因此需採用改良式的3D均溫板(3D Vapor Chamber;3D VC)氣冷技術來作為H100的散熱搭配,3D VC因提供較傳統氣冷更大的氣冷散熱空間,可將散熱能力提升到750W。

NVIDIA於2024年3月18日發表下世代Blackwell架構的GPU新品,其中,由Grace CPU與B200 GPU結合而成的高階產品GB200,TDP達2,700W,不但大幅超越主流產品H100的700W,也較同系列前代產品GH200的1,000W為高,TDP大幅提升,已遠超氣冷散熱解熱能力,因此GB200伺服器只能採用液冷散熱方案。採用液冷方案的優點,一方面可直接提升散熱能力及運算效率,另一方面,與氣冷散熱3D VC方案相比,相同解熱條件下,採用液冷方案可大幅壓縮伺服器系統層使用的機架高度。
若從機櫃的角度來看整體功耗需求,在系統機櫃高度不變的前提下,單一機櫃多搭配2個的H100 AI伺服器,基本上透過高階氣冷方案即可處理,屬於高U數、少台數,為較低密度的配置;NVIDIA的DGX GB200 NVL72 機櫃系統,因包含36個Grace CPU和72個B200 GPU,加總後,每個GB200 NVL72機櫃TDP至少在120KW以上,其高密度及高功耗的設計將只能以液冷方案處理,屬於低U數、多台數,為高密度配置。
由上可知,高階AI伺服器不斷往高算力與高運算密度發展,將成為液冷散熱巿場的主要成長動能。根據調研機構MarketsandMarkets預測,全球散熱市場規模將從2023年127億美元成長至2030年296億美元,年複合成長率(CAGR)達13.43%。其中,液冷市場規模成長幅度最為明顯,預估從2023年26億美元成長至2030年89億美元,年複合成長率達21.9%。
液冷散熱市場的成長主要源於大型雲端業者新建置的高速運算資料中心,而非一般型態的資料中心。目前一般型態資料中心仍以氣冷散熱為大宗,也因一般型態資料中心的應用、需求已處成熟階段,連帶使主要的氣冷散熱技術成長亦較有限,但佔比預期至2030仍過半。

水對氣及水對水液冷散熱方案各擁優勢 短期以水對氣液冷方案機會較佳
伺服器與資料中心散熱可簡單分為氣冷散熱、液冷散熱、浸沒式散熱等三類方案,氣冷散熱方案發展最成熟,也是目前資料中心及伺服器滲透率最高的方案。浸没式方案因環保問題及對現有資料中心改動極大,目前仍處初期發展階段。技術、巿場逐漸成熟的液冷散熱方案主要分成兩種模式,一種是液態對氣態(Liquid to Air;L2A),又稱水對氣方案,另一種是液態對液態(Liquid to Liquid;L2L),又稱水對水方案。採用冷卻液的部分則可分為水冷和油冷兩類,由於油冷方案散熱效率較差,因此水冷方案為目前業界採用的主流方案。

液冷散熱的基本原理是使用液體冷卻劑吸收和轉移伺服器內電子組件(例如處理器和記憶體模組)的熱量,透過液體的高熱容量和優異的導熱性,液冷散熱可使電子組件維持在最佳工作溫度,增加電子組件的能源使用效率。由於液體的導熱性是空氣的25倍,液冷散熱系統可大幅減少傳統空調機組的工作負載,使資料中心可節省高達90%的能源。
液冷散熱中不管是水對水還是水對氣方案,兩者所需料件上有許多相似處,如冷卻液分配裝置(Cooling Distribution Unit;CDU)是關鍵的組件之一,其可控制冷卻介質的流動速度和溫度,並將其分配至系統中需要冷卻的物件,使設備適度降溫。CDU亦提供監控和調節功能,可用來做故障檢測及優化能源使用效率,而最佳化的CDU運作可確保整個伺服器系統的高效與穩定性,其次重要組件為液冷板(cold Plate)與分歧管(manifold)。
上述三者為液冷散熱料件代表,在伺服器機櫃中會看到液冷板直接貼合於運作中的處理器上方,熱水透過分歧管流出進入CDU,再透過CDU與分歧管控制水路,讓冷水流經液冷板達到散熱,作為一個循環,此為液冷散熱水對水與水對氣兩種方案中運作相同點。
■ 水對氣液冷散熱方案結合氣冷散熱優勢 將成未來3年熱門散熱方案
水對氣液冷散熱方案可說是介於氣冷與全液冷方案間的一種折衷方案,其採用了部分氣冷與部分液冷,同時發揮它們各自的優勢,其散熱能力雖不如水對水,但因不需大幅改動伺服器機櫃架構,以及建置資料中心外部水冷循環系統架,僅在相同機櫃架構中增加液冷系統、背門與風扇即可運作,導入速度較快,資本支出也較低。
水對氣方案的主要組成包括了冷卻液、液冷板、分歧管、冷卻液分配裝置、背門、風扇等。其中,CDU是最關鍵的組件之一,其像是機櫃液冷系統的中樞神經,可控制冷卻介質的流動速度和溫度,並將其分配至系統中需要冷卻的物件,使設備適度降溫。

水對氣的散熱循環可分為液冷循環及氣冷循環的部分,其中液冷循環的過程如下,冷卻液經由冷分歧管流經直接貼合於晶片上的液冷板,透過金屬導熱帶走晶片產生的熱量,再將熱量有效地轉移至冷卻液,溫度升高的冷卻液透過熱分歧管流出液冷板,並在離開熱源後逐漸冷卻進入CDU,CDU將控制冷卻液的降溫狀況,並將降溫完成的冷卻液重新導入冷分歧管,完成一次循環。
CDU作為水對氣液冷系統組件的一部分,能夠在更高的效能和密度下處理熱量,是通過直接與高功耗元件接觸,將熱量有效地轉移至液體冷卻介質,然後遠離計算元件的方式運作達到散熱效果。
由於水對氣的液冷循環路徑僅限於機櫃週遭,較短的路徑不利冷卻液自然冷卻,因此加入了氣冷循環的設計。水對氣的氣冷循環作法,主要是在機櫃背門上安裝風扇或排熱裝置,加入氣冷循環不但可為冷卻液加速降溫,也能同時享有氣冷的優點。
水對氣的氣冷循環部分除可選擇一般背門搭配液冷風扇,目前更受巿場歡迎的是採用門熱式背門(Rear Door Heat Exchanger.RDHx)的特殊設計,RDHx是通過在機櫃背部安裝一個門式冷卻單元,使得冷卻風流經機櫃的每個單元,確保高效能元件均勻冷卻。這樣的設計在維持系統穩定運行的同時,也為CDU提供了更有效的熱交換界面,且水對氣的RDHx屬於主動式散熱在液冷機櫃實際設置時,可不需使用外部冷卻塔或冰水機,這對於資料中心在選擇採用液冷散熱方案上增加好處,其可額外減少能源使用。
DIGITIMES Research認為,水對氣的液冷散熱方案CDU搭配RDHx的組合優勢極具潛力,不僅是由於其卓越的散熱性能,更因為其能夠實現節能、與應對高效能的運算環境等優勢,這對於資料中心的可持續性發展至關重要,特別是在大規模資料中心和高性能運算集群中,可成為不改變資料中心及伺服器架構下,轉換散熱方案最佳選擇。
■ 水對水液冷散熱方案需更動資料中心基礎架構 建置成本與複雜度皆提升
第二種液冷散熱為水對水(L2L)方案,其是基於水對氣(L2A)設計延伸而來,在機櫃內部水對水的運作方式與水對氣相同,但相較於水對氣的循環範圍僅限於櫃櫃週遭,水對水方案則會將冷卻液送往更大的散熱設備進行更全面的散熱。
水對水方案則透過加裝流量控制閥、板式熱交換器,以及機櫃外部環境冷卻塔設備,在機櫃內液冷板與分岐管透過管中液體將熱帶出,管中冷卻液體吸收了熱能後,會經過CDU透過循環泵送到冷卻機,帶入冷卻塔後冷卻的液體會流回CDU再分配到機櫃內的分岐管中,繼續吸收熱能,進行液體冷熱交換作為一個循環。

水對水的液冷散熱方案適用於本身已有冷熱水管配置冷水塔的資料中心,與水對氣的運作方式不同處為水對水的散熱方式不是透過機櫃上所安裝的風扇進行冷卻交換,而是透過資料中心環境中所設置的冷卻塔進行液體的降溫散熱處理。雖與水對氣的液冷散熱方案相比不需要採用背門與風扇,但在資料中心環境中則需從伺服器機櫃外接至冰水主機或是水塔等基礎設施來進行降溫循環散熱。
與水對氣液冷散熱相比,水對水的液冷散熱方式散熱效率又更高,能源消耗更低,也因為不需要使用高功率的液冷風扇,所以噪音產生的問題也相對降低許多。但因液冷方案中水對水的模式需要在資料中心環境做基礎設施的調整,包含冷水塔及水箱的建置等,而水對水液冷散熱方案的資料中心完整建置通常需要約3至5年的時間,因此應用發展速度上目前來說沒有水對氣液冷散熱方案來的快。
總而言之,短期間內資料中心如要以既有的環境來做散熱改良提升,水對氣的液冷散熱方案將會是目前最佳選項。如推導散熱主流發展趨勢,以資料中心建置所需時間來推估,液冷散熱方案主流將會在2027年開始,屆時技術的成熟與資料中心的建置完成可使水對水液冷散熱在資料中心需求成長顯現。
液冷散熱方案組成複雜度與零組件單價皆顯著高於氣冷散熱方案
氣冷散熱與液冷散熱因組成料件不同而產生成本結構上的差異,單一伺服器機櫃氣冷散熱成本約落在0.5萬~2萬美元,而液冷散熱成本則可達5萬~20萬美元,甚至更高,成本範圍差異較大主因與機櫃中的伺服器系統數及晶片總量有關。液冷散熱因單價高的CDU、分岐管,液冷板及風扇,加上其他零組件皆較複雜,預期總成本為氣冷散熱系統的5~10倍。
氣冷散熱的料件成本組成中,風扇價格約在2,000~8,000美元,佔伺服器氣冷散熱總成本約半,而液冷散熱組成成本近半則由CDU所構成,CDU價格約在1萬~4萬美元,其次為液冷板、分歧管與背門。

不管是水對水還是水對氣液冷散熱,重要組件液冷板皆是與處理器/加速器成對貼合組成,因此用量與處理器、加速器的數量一致,分歧管使用套數則與伺服器整機數量相關,液冷板與分岐管兩者材料都屬於在伺服器液冷系統使用量較多且單價較高,可說是除了CDU以外影響整體液冷散熱系統價格相對較大的兩種料件。
此外,在液冷散熱方案中,水對氣方案的背門可選擇採用風扇背門或是RDHx背門,而水對水的背門大多是不具備風扇的液冷背門,但因屬於客製化比例較高的料件,佔伺服器機櫃散熱系統成本達1~2成。
值得一提的是,水對氣液冷方案中採用的冷卻風扇與傳統氣冷並不相同,成本通常較高,主因液冷散熱系統所吸收的熱需要更大型和更強力的冷卻風扇,以確保有足夠的風量和壓力來有效地將冷卻液所帶出的熱從系統中排出。相較下,氣冷系統中使用的風扇因主要是將散熱金屬板所吸收的熱降溫,通常較小且功率較低,因此成本較低。
其次,液冷系統中的冷卻風扇需要應對更複雜的工作環境和操作要求。這包括在潮濕環境中保持穩定運行,以及在高溫或極端溫度變化下維持性能。為了滿足這些要求,廠商會對液冷系統中的冷卻風扇進行特殊設計和工程改進,將會進一步提高成本。
氣冷方案散熱能力差但部署較易 液冷散熱效率更佳但初期成本較高
DIGITIMES Research將氣冷散熱與兩種液冷散熱方案進行比較,首先,散熱能力由低到高,分別是氣冷散熱最高僅500W、3D VC氣冷散熱可到750W、水對氣液冷散熱1,000W、水對水液冷散熱達1,500W,可看出液冷散熱解熱能力顯著優於氣冷。
高密度效能亦為液冷優勢,高密度效能指的是在高密度情況下處理熱的能力,以750W的散熱目標為例,氣冷散熱採用3D VC需要最少3U以上的機架高度,但如採用液冷方案,機架高度可以壓縮到2U以內,在目前伺服器機架密度提升的趨勢中,液冷散熱屬優勢方案。
隨著資料中心業者對於電力使用效率(Power Usage Effectiveness;PUE)的關注日益提高,導入散熱方案的選擇變得至關重要。氣冷方案的PUE大約介於1.2至1.5間,而水對氣液冷方案的PUE可達到1.1,進一步的水對水液冷方案更可將PUE降至1.05。因液冷系統能夠有效地降低資料中心的能耗,同時提高散熱效率,從而實現更環保、更節能的運作,因此,在目前業者普遍將PUE目標設定在1.2內,液冷方案將在資料中心設計中扮演日益重要的角色,未來液冷方案應用將逐漸成為主流。

氣冷與液冷散熱方案的選擇,不僅影響伺服器整體成本結構,更會影響總建置成本。與氣冷方案相比,液冷方案最大優勢在於高解熱能力、高密度效能比及低PUE等,然而在部署靈活性、總建置成本、結構複雜度來看,液冷散熱則不如氣冷散熱。然在伺服器密度越來越高的前景下,採用液冷散熱才能夠最大化的壓縮系統高度,提升機櫃密度,因此,在算力需求要求最高的加速器叢集資料中心中,液冷散熱將是主要選項。
結語:
DIGITIMES Research認為,生成式AI發展需求帶動資料中心業者加速對於高速運算資料中心的布局與建置,同時推升高階伺服器與資料中心的散熱需求,氣冷散熱走向液冷散熱時代已到來,過去液冷散熱因其成本高昂與需求較少而甚少被探討,如今高功耗所帶來的散熱需求將需由液冷散熱解決。整體而言,氣冷散熱巿場已步入較為成熟階段,未來成長空間較為有限,液冷散熱則將開始進入高速成長階段。
而水對水液冷散熱,因資料中心搭配的液冷循環相關基礎建設建置需求,約需要2~3年的建置前置時間,因此,短期內水對氣的液冷散熱方案將成為主流,並預期資料中心業者將積極加快水對水液冷散熱方案的建置時程。未來在運算需求及高能源使用效率的持續成長下,即使是水對水液冷散熱亦可能提早面臨散熱瓶頸,尚在發展初期的浸沒式液冷方案預期未來需求將有一席之地。
當前浸沒式液冷業者雖積極開發可行方案,然浸没式液冷不僅需考量散熱效果,也需處理電子零件長時間浸泡於液體中可能產生的損壞風險。目前浸沒式液冷在發展上仍屬試驗期,技術尚不夠成熟,估AI伺服器與資料中心短中期應用仍將以水對氣與水對水的液冷方案優先。
若想立刻加入付費"Research"會員,請洽詢
客服專線:
+886-02-87125398。(週一至週五工作日9:00~18:00)
客服信箱:
member@digitimes.com (一個工作日內將回覆您的來信)
- 追溯至2000年,洞察產業脈動
- 優質報告,助攻精準決策
- 八大主題,23產業頻道涵蓋
- 七大全球數據庫,掌握市場趨勢