2024年下半,我有機會和一家矽谷前瞻大模型公司的高層交流。我問了一個問題:為了減輕伺服器端的推論負載,有沒有可能把部分工作移到終端裝置,甚至開通新的應用情境?
對方的回答很直接:根據他們的研究,這完全不可能。幾個月後,2025年農曆年前後,一場模型效率的突破事件讓業界重新檢視這個可能性。「完全不可能」,在不到一年內被現實修正。
目前的資本流向,幾乎清一色集中在最頂層。據部分研究機構估計,2025年美國資料中心建設規模(含規劃中與施工中)已逼近80 GW;多家財經媒體的報導指出,主要科技業者的資本支出預計在2026年合計達到約6,600億美元,其中逾8成直接流向AI資料中心。業界觀察者以「沒有放緩跡象」形容這波投資熱度,並點出其結構性而非週期性的特徵。熱點在哪裡,目前的答案很清楚。
但另一組力量也在累積,而且有個不直覺的地方值得點出。2023年初,主流前瞻模型的API定價約為每百萬token 30美元;如今已全面跌至0.1至0.25美元,降幅達90至99%,且仍在下修(本專欄〈AI越強,Token卻越便宜〉)。
按照直覺,token這麼便宜,AI帳單應該縮水。現實卻相反:推論模型、agent呼叫鏈等需求乘數,讓總用量的成長速度遠超單價下滑的速度,帳單不減反增(本專欄〈推論經濟學〉)。「在哪裡推論、用什麼規模推論」,已從架構選項變成經營決策。
若把AI推論的基礎設施從當前的資本重心到未來的部署前瞻排列,我們推估大致可分為5層。
最頂層也是目前投資最密集的,是超大規模AI工廠——以GW為單位,服務全球通用推論工作負載。這一層的競爭邏輯是純粹的規模經濟,幾個大型雲端廠商之間的較量,進入門檻極高,只有少數企業能直接介入的市場。
往下一層是受監管或主權級AI資料中心。歐盟的AI法規、中東的數位主權政策、東南亞各國對資料本地化的立法,都在把特定產業或政府機構推向「必須在受控環境內完成推論」的處境。需求最明確的是國家安全相關機構——推論工作不只不能出境,往往還需要在實體隔離的環境中完成,對硬體安全認證的要求遠高於一般企業。金融和醫療等私部門雖然約束程度較低,但面對的本質問題相同。這一層的採購決策往往由法遵、風控或安全主管部門驅動,銷售週期和評估標準與其他層截然不同。
企業AI資料中心目前是成長最快的一層。金融業、醫療機構、製造業領導廠商,在評估AI推論的部署位置時,部分選擇自建而非公有雲,驅動力不只是長期成本,更多是資料不願外傳的現實考量。這一層需要一定規模的IT組織支撐。
對有自建能力的大型企業而言,推論需求愈大,自建的TCO優勢就愈明顯——每個token的運算成本、能源效率與系統使用率,都成為設計的核心參數,而非事後才考量的營運細節。但沒有足夠IT資源的中小企業,直接跨入的風險不低。
中小型本地伺服器對應有一定技術能力、但不想完全依賴公有雲的中小企業或部門級部署。有一個長期被低估的現實:許多企業過去透過NAS等本地儲存,累積大量業務資料——檢驗紀錄、作業日誌、客戶往來文件——因為法遵、成本或頻寬的限制,從未上雲,也從未被真正利用。本地推論伺服器的出現,讓這批沉睡資料第一次有機會被語言模型處理,不需要把資料傳出去,也不需要支付龐大的雲端費用。這一層真正的門檻不是資本支出,而是IT人力的可得性。
第五層是終端裝置。從手機上的智慧語音助理、工廠邊緣的視覺檢測,到需要即時感知與動作決策的自主機器人,這一層的關鍵是延遲與離線可用性,而非運算規模。機器人在實體空間執行動作,幾乎沒有等待雲端回應的餘裕,斷線就意味著停擺;這讓終端推論從「可選項」變成系統設計的前提。需要大型模型推論或長篇上下文的任務,目前仍難以在這一層完成。但這條限制的邊界正在移動。我們曾以封包(packet)的演進為例分析過(本專欄〈鑑往知來:packet vs. token〉):網際網路早期的運算重心在伺服器端,當封包成功進入行動裝置,才催生智慧型手機與長達10年的行動生態系爆發。token往終端裝置移動,似乎正在走出類似的路徑——使用需求的拉力、模型輕量化的持續推進,以及本地端推論硬體的能力提升,3個條件正在相繼具備。近中期更可能的形態是混合並存,而非全面取代;但這一層的成長方向相當確定。
這個層結構能夠同時成立,背後有幾個技術條件在近兩年相繼成熟:模型輕量化讓前瞻模型得以在更少的硬體上完成推論;開放權重模型的能力持續追近閉源模型,且可以自行部署、不依賴特定廠商介面;法規與地緣政治的壓力,則讓受監管資料中心這一層的需求有了更穩定的支撐。三者缺一,分層格局就難以成立。
這個趨勢不代表頂層的投資退燒——各方數據顯示那一層的建設力道仍在持續。各層同步展開,需求規模擴張,而非資源從頂層向下轉移。競爭重心過去集中在頂層的大規模伺服器與散熱解決方案;現在,每一層都有不同的系統規格需求——低功耗推論晶片、針對推論工作負載優化的中密度伺服器、安全法遵的系統整合,直到終端裝置的邊緣推論模組。能否針對不同層次的客戶需求給出有差異的回應,或許正是這波擴張中新機會的所在。