Google AI壓縮技術引發市況反轉? 兩岸記憶體業界:大缺貨潮恐延續更久
AI爆發,記憶體市場進入「缺貨、漲價、搶產能」局面。據估計,2026年伺服器記憶體需求將年增將超過40%,佔整體儲存應用比重超過50%,近日Google發表最新AI壓縮技術,引發市場擔憂記憶體需求反轉疑慮。
儘管如此,台灣、中國記憶體相關業界,多認為無須擔憂,群聯電子執行長潘健成直言,NAND Flash大缺貨將會延續更久。
大普微董事長楊亞非認為,AI推理數據呈現指數級成長,國際大廠技術創新可能帶來局部缺貨緩解,但降低記憶體的建置成本,反而將刺激更大應用需求;阿里雲的千問大模型高級產品方案架構師李彬也表示,壓縮記憶體可能減少消耗,但大模型上下文推理的規模,仍飛速發展,對於整體儲存需求也快速成長。
長江存儲固態硬碟(SSD)事業部負責人譚弘則表示,AI上半場主要集中於訓練,如同修煉內功,通過大數據來為系統打基礎;但真正讓AI發揮作用關鍵在於推理側,AI推理猶如招式,在多樣化應用中猶如「拳、掌、腿」各種訓練,將使用各種場景,讓終端達到最大價值。
他認為,AI革命不僅存在於算力,大模型核心瓶頸在儲存,需要更大容量、更高性能的企業級SSD來支援巨量token吞吐。
近期業界關注Google發表最新AI壓縮技術「TurboQuant演算法」,宣稱記憶體數量只需原本6分之1, GPU系統進行推理時,可將KV Cache資料進行壓縮,就能運作大型語言模型(LLM)技術,潘健成直指,外界認為「未來主機不需要用太多SSD」的觀點,絕對是錯誤的。
假如壓縮技術不存在,主機需採用大量DRAM跟SSD,不僅成本貴、產業供給數量明顯不足,但未來如果主機的建置成本下降,出貨台數將大幅增加。
潘健成舉例,如果汽車引擎成本要100萬美元,全世界路上跑的汽車也不會太多,但引擎變成2,000美元,汽車將會滿路跑。因此未來主機出貨台數快速增加,token也將大幅增加,這意味NAND Flash大缺貨會更久。
潘健成表示,NAND Flash從1月到3月的價格幾乎翻倍,近期原廠直接提出調漲50%,過了一個月後,又說下個月再漲25%,雖然各家記憶體模組廠手上握有低價庫存,營運獲利大幅成長,一旦庫存用完,進入買貴、賣貴的時候將面臨更大壓力。
這意味著,記憶體供應鏈不能只靠賣價差,更需要投資技術、創造價值,2025年群聯整體研發投資費用大概4.4億美元,2026年估計7億~8億美元。
China Flash Market總經理邰煒表示,AI讓儲存及記憶體進入「史詩級」超級週期,徹底改寫產業結構,儲存已從一個BOM表的成本,變成AI競賽的戰略資源。不過在經歷2025年第4季~2026年第2季價格大幅上漲後,預計從第3季開始,NAND價格漲幅開始趨於穩定。
邰煒進一步指出,AI對儲存需求將與日俱增,由於大模型進行推理時,需要把每一層、每個token的Key Value結果存起來,以避免重複計算,有效減少推理的時間。
但現在大模型正從短上下文,演變成長上下文,加上推理需求愈來愈多,KV快取的佔用儲存空間,也會隨著token數量呈線性暴漲。
據估計,上下文從4K token漲到 128K token,token KV快取的存儲空間將會直接漲32倍,如果再遇到100個連帶詢問的請求,KV快取的需求就會達到TB級別,因此高頻寬記憶體(HBM)是完全無法承載,這讓KV快取的需求大規模向NVMe SSD 轉移,並針對AI推理工作負載進行優化。
另一方面,近線(NL)HDD產能缺口龐大,QLC NAND的替代需求不斷上升,各種因素讓伺服器儲存需求爆發式成長,但產能卻遠遠跟不上,因此存儲短缺將成常態。
邰煒認為,雖然NAND原廠開始增加新一波資本開支及擴產,但產能擴張的週期長達18~24個月,最早也要等到2027年,才有新產能釋放。
但就算是新增產能釋出,依然沒法完全滿足市場的需求,因此存儲供應短缺的問題,短期內將很難緩解。
責任編輯:何致中







