資料中心散熱越趨關鍵 3D VC將成氣冷散熱方案主流

DIGITIMES Research觀察,在新世代資料中心建置過程中,散熱方案逐漸嶄露重要性,特別是在追求更高效能、優化電源使用效率(Power Usage Effectiveness;PUE),以及生成式人工智慧(Generative AI)與高效運算(High Performance Computing;HPC)等應用需求不斷提升下,傳統氣冷散熱方案逐漸顯露瓶頸,3D VC (3D Vapor Chamber)以比傳統氣冷散熱高出近1.5倍的解熱效能,展現優勢。

高性能運算和人工智慧崛起對資料中心帶來更多挑戰,其中,如何有效散熱為最關鍵議題。高伺服器密度、資料中心擴張、節能議題及高速運算需求成長等趨勢,將促使大型資料中心業者紛紛將散熱布局視為重要戰略,不僅關心PUE目標的實現,更積極尋求提高散熱效率方法,因應不斷成長的運算需求。

在運算成長趨勢下,資料中心的發展路徑不再僅僅受到降低PUE數值目標的引領,還受到生成式AI和高效能運算的共同牽引,及耗用能源上的擔憂,特別是在HPC和AI的快速崛起與生成式AI的推動下,CPU和GPU效能成長也面臨熱設計功率(Thermal Design Power;TDP)的不斷提升,將為散熱帶來更為嚴峻的考驗。

在普遍資料中心以氣冷散熱為主流的背景下,3D VC應用成功地突破理論上氣冷散熱的解熱限制,為資料中心帶來更高的散熱效率,DIGITIMES Research預估,3D VC將成為2024~2025年伺服器氣冷散熱的主流方案。

PUE目標及生成式AI共同驅動散熱需求爆發

DIGITIMES Research觀察,隨生成式AI、HPC等快速發展,處理的資料也日益複雜,使企業對資料中心運算性能的需求持續成長,伺服器的高效運作和穩定性變得比以往更加關鍵。

然而,資料中心的高效運轉推升了對伺服器的功耗要求,使伺服器散熱方案成為顯學。散熱不僅是維持伺服器穩定運行的關鍵,更是保障伺服器壽命的必要條件,如何開發出更有效的散熱方案成為業者迫切任務,不斷創新和整合各領域專業知識的散熱解方,將成為發展HPC等高階技術的必然趨勢。

■    HPC與AI成長為資料中心建置帶來散熱挑戰

HPC和AI的快速發展已成為資料中心建置的一大挑戰,資料中心需在硬體、軟體和散熱方面進行更多的優化和升級,DIGITIMES Research將其歸納成以下四大重點。

一、對運算能力需求快速提升

HPC和生成式AI的驚人發展使得資料中心對運算能力的需求急劇增加。從複雜的科學模擬到大型語言模型(large language model;LLM)的訓練,這些應用要求更快的處理速度和更大的記憶容量,因此,高階資料中心必須採用高效能CPU、加速器及大容量記憶體,這些硬體在高速運行中皆會產生大量熱能,傳統散熱方案已不敷使用。

二、資料中心規模必須擴大

HPC和AI應用通常伴隨著大量數據產生,而這些數據需要被高效地儲存、管理和檢索。資料中心在面對大規模數據的同時,需要構建更先進的儲存系統和數據管理工具,以確保數據的可靠性、可用性和運算高效性。這同時也意味著資料中心對於坪效需求提高,相同空間所需容納的伺服器數量需提升,散熱相關需求也同時增加。

三、高耗能帶來能源使用效率與節能議題

高性能運算較傳統運算耗用更多電力及水資源,對資料中心的能源效率帶來嚴峻挑戰,在確保運算性能的同時,資料中心需要不斷探索新的能源利用與節約技術,如液冷散熱和能源效率優化,這不僅關係到成本的控制,還涉及各業者對於環境能耗議題的發展目標。

四、高密度伺服器配置

運算需求的提升及講求更高效的伺服器空間應用,使得目前業者設計傾向提高單一機櫃伺服器數量,導致單一機櫃中散熱空間受到壓縮,在熱能增加空間壓縮的情況下,散熱將會是一大挑戰。

資料中心散熱重要性提升的四大關鍵因素
資料來源:DIGITIMES Research,2024/1

■    大型資料中心業者重視散熱布局 目標PUE趨近1

新世代資料中心建置以及對環境友好和節能效益的追求,使PUE成為評估資料中心運行效能的重要標準。與此同時,生成式AI的發展則帶動資料中心內運算工作負載的大量增加。趨勢共同作用下,資料中心業者對散熱需求表現強烈。

DIGITIMES Research觀察,在大型資料中心(Hyperscale)業者散熱目標中,提高效能、節約能源一直是重點之一。能源耗用效能評估常以電力使用效能(Power Usage Effectiveness;PUE)指標為基準,目標使PUE趨近1,此時,散熱系統的角色變得至關重要。

PUE是衡量資料中心能源效能的指標,其計算方式為總能源消耗除以運算設備的能源消耗。當PUE越趨近1時,表示資料中心更有效地將能源用於運算處理,而非浪費在冷卻和其他基礎設施上。因此,大型資料中心業者通常將PUE數值的降低視為提升營運效能的重要目標。

散熱系統與資料中心的冷卻效能緊密關聯,進而影響PUE數值。當散熱系統能夠有效地將熱量從IT設備中排除,資料中心便能減少冷卻能耗,從而降低PUE。因此,大型資料中心業者日益重視散熱系統的布局和效能優化。資料中心對散熱布局的優化不僅能降低PUE,還有助於節省能源成本與能源耗用、延長IT設備的壽命,進而增進資料中心的可持續性。

然而,實現散熱優化並非一蹴可幾,需要投入大量的資源和技術。大型資料中心業者在追求PUE趨近1的同時,也需要平衡成本、技術更新和營運的複雜性。

DIGITIMES Research觀察,2023年全球資料中心平均PUE為1.58,而中系業者也因中國政府提出規定業者須於2025年資料中心PUE至少要達到1.3的水準政策驅動下,中國資料中心近年平均PUE已較2007年相比下降幅度高達60%,透過線性預測也可推論未來PUE呈現下降趨勢。

2007~2023年全球資料中心平均PUE變化
資料來源:DIGITIMES Research,2024/1

至於是否能夠持續維持PUE下降動力,需考量資料中心設備及使用年限等因素,而較早期所建置的資料中心,業者是否會持續投入資源,更新硬體設備、散熱系統和能源利用規畫,將會影響該資料中心呈現出的PUE數值,且間接影響到全球資料中心平均PUE結果。至於近幾年全球平均PUE無明顯起伏,主要可歸因於運算需求在近兩年大幅度成長,所產出的熱量遠高於以往。在熱量龐大產生的前提下,近兩年資料中心PUE數值無大幅度上升,可見業者在散熱布局方面的重視與投入。

觀察主要資料中心業者的PUE,可發現美系大型資料中心業者數值較小,平均為1.12;而大型資料中心業者Meta的Prineville資料中心因使用液冷技術於資料中心建置散熱設計,成功實現將PUE值降至1.09~1.06。

2023年主要大型資料中心平均PUE一覽
資料來源:各業者,DIGITIMES Research整理,2024/1

這種極低的PUE值可表明液冷技術對於提高資料中心的能源效能有顯著影響。中系業者華為近年投入資源於全液冷散熱方案,並運用於資料中心,其散熱效能大幅度優化使得PUE數值從早期2.2明顯降至1.1,除因全球對資料中心能耗探討等相關需求提升外,中國政府政策促使中系業者積極投入資源布局散熱也達到一定效果。

■    生成式AI拉動對處理器效能要求 TDP提升加大散熱挑戰

DIGITIMES Research觀察於2008年時,CPU平均熱設計功耗(TDP)落在105瓦(Watt)至2023年仍一路呈現上升情勢,而2023年熱議的圖形處理器(GPU)平TDP也高達850瓦,且生成式AI的應用需求正急速增加,推動伺服器主流處理器(包含CPU和GPU)效能持續提升,從而提高TDP。

然而,隨著效能的增長, TDP的同步提升成為各相關業者不可忽視的挑戰。TDP的定義是指一顆CPU或GPU達到最高負荷時,所釋放的最大熱量,其上升將導致散熱需求增加,並影響硬體穩定性和可靠性。面對TDP提升,硬體製造商需要不斷優化散熱方案,包括改進冷卻系統、利用先進的散熱材料等,以確保硬體在高效能運算時,能夠維持穩定的工作溫度。

眼看生成式AI需求增加,GPU效能不斷優化,CPU業者亦需不斷推出高效能處理器。由於生成式AI需大量的矩陣運算和平行計算,而GPU在此運算領域中表現卓越,同時業者致於不斷提升GPU的運算能力,包括增加處理核心、提高記憶體頻寬等,以滿足生成式AI的高效能運算需求。

DIGITIMES Research觀察,2016至2024年CPU和GPU性能提升進一步加快,TDP也同步持續增加。主因晶片工藝的進步更加迅速,以及CPU和GPU架構不斷演進。以NVIDIA預計於今年推出GPU為例,B100系列TDP將達到1,000瓦,這將為晶片散熱帶來更迫切的需求。

2008~2026年主流處理器TDP變化及預估
資料來源:各業者,DIGITIMES Research整理,2024/1

以近年主流處理器的TDP分布情況來看,GPU的TDP成長幅度最為明顯,也為晶片散熱帶來新一代的挑戰。較為特別的是,以AI伺服器來說,使用8顆GPU組成一個伺服器系統架構,從需求用量也可看出AI伺服器的散熱需求較一般伺服器更加迫切。

從2008年晶片TDP平均約為100瓦至2024年NVIDIA B100的TDP為1,000瓦來看,成長幅度達10倍,可見CPU和GPU的熱能提升是必然趨勢,同時TDP持續大幅度增加也是一個可預見的問題。

傳統氣冷散熱出現瓶頸 3D VC帶來更高解熱效能

氣冷散熱為目前最主流的散熱方式,其應用範圍相當廣泛,從整個資料中心的空調系統,至單一伺服器主機的氣冷方案。其中,伺服器氣冷散熱主要是在伺服器內部使用風扇和散熱模組等散熱技術,將熱量從硬體元件(如處理器、記憶體等)有效的導至機器外部;風扇可將冷卻風引入伺服器,同時將熱空氣推向外部。

傳統氣冷散熱系統主要組成料件包括熱介面材料(Thermal Interface Material;TIM)、均溫板、風扇、熱導管、散熱鰭片等,這些散熱料件從晶片到伺服器系統機櫃都會採用,而傳統氣冷主要的散熱方式是依靠風扇主動降溫,這種散熱方式會對資料中心的空間設計較多限制,因需考量伺服器氣冷散熱所排出熱風的處理與循環。

而在面對現代高效能電子元件的散熱需求時,氣冷方案逐漸顯露瓶頸,隨著電子產品日益複雜,且功耗不斷攀升,氣冷散熱方案的效能逐漸無法應對快速增長的熱量。這種情況在運算資源高度密集的伺服器及資料中心應用尤為明顯,傳統氣冷散熱將難以有效地將熱量迅速散發,導致資料中心運算設備性能受到限制,甚至可能影響其穩定性和可靠性。

傳統氣冷散熱方案組成示意圖
資料來源:DIGITIMES Research整理,2024/1

■    3D VC為氣冷散熱方案帶來更佳散熱效率

在追求高速運算的需求情境下,3D VC技術的導入為氣冷系統提供了更高散熱效能的解決方案。3D VC透過模組冷卻的方式,能更有效地從電子元件中導出熱量,並迅速將其傳遞到散熱系統,進而提高整體散熱效能。這種技術不僅可因應目前高功耗情境,同時也有助於解決設備中散熱不均勻的問題,提升了整體系統的熱管理能力。

3D VC技術的關鍵在於採用具垂直導熱優勢的熱導管,結合水平導熱優勢的均溫板,兩者利用垂直堆疊組成立體模組化設計。其並非單純將兩種元件進行焊接,而是需將其內部呈現中空並進行結合,同時使中空管路的毛細結構形成迴路。

3D VC除了有熱導管與均溫板結合方式的設計,也可採用均溫板與均溫板結合呈現垂直與水平相交的立體堆疊,並於材料內部形成熱傳導迴路,藉此可增加配置冷卻通道,並優化系統中散熱平面的布局空間,使熱量能更均勻地被冷卻介質吸收並發散。這種設計不僅提高氣冷散熱效能,同時也有助於降低整體系統的工作溫度,進而延長電子元件的壽命。

然而,在3D VC提升氣冷散熱極限的優勢下,其垂直堆疊設計也為伺服器的高度帶來一定限制,因垂直堆疊模組化設計,導致伺服器需要有一定的高度才能靈活運用3D VC在氣冷散熱上的配置。

3D VC示意圖與三大類氣冷散熱方案相關性質比較
資料來源:DIGITIMES Research,2024/1

熱導管與均溫板在氣冷散熱中屬於風扇以外的重要材料元件,以往在氣冷散熱設計上,兩材料都是可分別部署至晶片上或系統中,與風扇結合成為散熱系統進行散熱運作,其中,熱導管較均溫板所佔空間較多,設計上也會需要較大的空間。

DIGITIMES Research認為散熱方案的設計與選擇不僅要考量空間設計、材料成本與其用量,亦需掌握廠商供給狀況和生產良率。另外,由於3D VC的應用限制與伺服器高度相關,一般氣冷的理論散熱極限落在500瓦左右,而3D VC的應用則可提高氣冷散熱功率至800瓦,但伺服器高度則需調高到3U高度。

氣冷散熱功率與伺服器高度關係
註:伺服器高度單位以U呈現,「1U」相當機架上三個插孔之間的距離,等於1.75英吋高。

資料來源:DIGITIMES Research,2024/1

以氣冷方案來說,3D VC仍屬較新技術,價格較熱導管與均溫板等成熟料件為高。但3D VC除解熱能力明顯高於傳統氣冷方案,與新興的液冷方案相較,在相同解熱能力下,3D VC雖空間耗用較多,但成本僅為液冷方案的10分之1。由此可知,3D VC除為氣冷散熱帶來效能上的突破外,與液冷相比亦具有一定成本優勢,且因轉換散熱方案設計痛點較少,故導入3D VC應用及需求成長顯著。

目前晶片應用導入3D VC有英特爾(Intel) Eagle Stream跟超微半導體(AMD) Genoa,有這兩項產品的導入加持,對該散熱應用產生一定的推動力。

由此可見,3D VC除為氣冷散熱帶來新突破,同時也能提供氣冷散熱設計沿用氣冷機房架構的前提下的另一種選擇。

DIGITIMES Research認為3D VC技術的應用為傳統氣冷系統帶來成長,使其能夠將氣冷散熱效能增加至800W,且比液冷散熱更具有成本優勢,體積空間更具彈性,預估將成為2024~2025年資料中心伺服器散熱由氣冷切換至液冷散熱設計前可採用的過渡方案。但同時因3D VC有高度及散熱效能上限,如要增加空間運用效率及更高的散熱效率,液冷散熱仍是發展趨勢。

結語

DIGITIMES Research認為,散熱方案對於資料中心的發展變得至關重要。在新世代資料中心建置的過程中,我們見證了資料中心業者針對散熱的戰略性布局,尤其注重應對日益增長的高性能運算需求所帶來的挑戰。。不僅追求PUE目標的實現,更注重提高散熱效率以應對不斷增加的高性能運算需求。生成式AI的需求加速到來,CPU和GPU的效能提升導致熱設計功率的提升,這使得傳統的氣冷散熱方案面臨瓶頸。

在這樣的背景下,3D VC作為一種新的氣冷散熱方案,成功地提供了更高的解熱效能,提高氣冷散熱能力約1.5倍,其不僅在實現高效氣冷散熱方面表現優越,可成為轉向液冷散熱前的過渡方案,為資料中心的氣冷散熱帶來了新的可能性。

DIGITIMES Research觀察市場,業者已有明顯的出貨能見度提升,顯示3D VC在業界受到廣泛認可並被積極採用。

DIGITIMES Research預估,未來液冷與浸沒式冷卻技術逐漸發展成熟,但氣冷散熱仍將持續存在並轉變為輔助角色。以目前的發展來看確實需要液體冷卻技術的導入,但氣冷散熱無法完全被取代,主要是因為資料中心目前環境仍需氣冷散熱存在,同時部分伺服器可能無需使用高成本的液冷散熱技術。因此,氣冷散熱在未來資料中心生態中的地位雖然受到挑戰,但其特定應用和成本效益可確保其不被完全淘汰。

 

相關報告
關鍵字
購物車
0件商品
智慧應用 影音