2023年初,OpenAIGPT-4的API定價約為每百萬token30美元;如今,主流前瞻模型已全面重訂價格:GPT-4o mini降至0.15美元、Anthropic Claude 3.5 Haiku低至0.25美元、Google Gemini 2.0 Flash更壓至0.10美元—降幅從90%到99%不等,而且仍在持續下修。這不是削價競爭,而是深層的技術與市場力量共同作用的結果,並正在引發整個AI生態系的結構性改變。
3個相互強化的力量在同時作用,支撐token價格持續下降。
首先是模型效率的快速提升。
蒸餾(distillation)將大模型的能力壓縮進更小的架構,量化(quantization)降低每次運算的位元需求,混合專家架構(MoE)讓推論時只啟動最相關的小網路。同樣的任務,所需算力持續縮減,而且這個技術優化態勢,還沒止息。
其次,是系統層級的優化。
產業界已清楚Transformer推論的運算瓶頸——矩陣乘法佔了絕大多數計算量,KVCache的記憶體存取效率與頻寬配置直接影響延遲,而批次處理策略則決定整體吞吐量。從編譯器最佳化、推論排程到硬體與系統層的整體優化,讓同一套硬體能服務更多prompt、產出更多token。
以Google為例,透過TPU與模型、系統的協同優化,在特定工作負載下推論能效出現數倍到數十倍等級的提升,顯示推論成本仍有可觀的下降空間。
接著是競爭格局的根本改變。
DeepSeek-R1、Meta LLaMA3、阿里巴巴Qwen2.5等開源模型持續追近閉源frontier模型的效能(約落後7個月),打破少數大廠的定價壟斷。開源模型的全球部署量已佔整體AI使用的約3成,也成了市場定價基準的壓力源。
Token成本的持續下降,正在同步觸發3個層面的連鎖反應。
第一,是AI推論應用的急遽擴張。
當每百萬token的成本從過去的高價模型,下降到數十分美分至數美元等級,大量原本「因成本不具經濟效益」的場景開始跨越可行門檻。個人化郵件撰寫、即時翻譯、文件摘要、程式碼生成、多語客服回覆、會議紀錄整理、合約審閱輔助、報表初稿產生等任務,不再只是試驗性功能,而逐步成為工作流程中的常態模組。
關鍵不在於成本歸零,而在於邊際成本已低到足以長時間、完整部署推論服務,讓AI從「偶爾使用的工具」轉變為持續運行的生產力工具。
第二,是Agent對工作流程的全面滲透。
低成本token是Agent得以規模化的前提。這一點已在市場成長速度上反映出來:Anthropic的營收規模近年快速進入數十億美元級距,年增幅達數倍;Cursor等AI coding工具在短時間內從千萬美元級別,躍升至上億美元年化營收,成為成長最快的一批AI SaaS產品。這些成長快速的新創幾乎無一例外地以agent或workflow automation為核心定位——無論是Anthropic、Harvey、Glean——產品路線指向的是自主代理與垂直工作流程整合,而非單純的聊天介面。一個agent往往需要與多個工具連續互動、發出數十次甚至上百次API呼叫才能完成任務。token成本的每一次下降,都在直接擴大agent可運行的任務邊界與商業規模,同時也引發更多的token用量。
第三是價值的持續上移。
最具體的案例是程式碼生成。Cursor、ClaudeCode等AI coding agent以Claude與GPT-4o為核心引擎,正在重塑開發者的工作流程,而非只是IDE的外掛。Microsoft 365 Copilot、Anthropic Claude將AI能力直接嵌入Excel的公式建議與資料分析、PowerPoint的簡報生成、Teams的即時摘要,使AI不再是獨立查詢工具,而成為日常工作的預設助手。根據DIGITIMES Research的市場觀察,AI產業價值佔比將在2026至2028由硬體逐步轉向軟體與服務,而應用層的滲透速度,將成為下一階段競爭的真正起點。
成本的持續下壓,讓另一端的問題更加凸顯:如何繼續壓低生產token的成本(TCO)?顯現在2個產業核心。
晶片架構是第一個關鍵。各大CSP正加速投入自研ASIC,針對Transformer推論的計算模式深度最佳化,在特定工作負載下可實現數倍等級的能效提升,使算力成本的下降速度不再完全受制於通用GPU的產品節奏。電力則是更根本的制約因素。高密度AI資料中心的電費往往佔營運成本的相當比例,當規模擴張到一定程度,電力取得能力往往比伺服器採購能力更早觸及上限。
近年新資料中心的選址優先順序已悄悄改變——穩定電力供給逐漸取代土地成本成為首要考量。多家能源研究機構預測,全球資料中心電力需求在未來數年將出現倍數成長,AI擴張的真正瓶頸,已從晶片轉向能源。
Token成本持續驟降,是AI進入第二階段的信號。第一階段的核心問題是「能不能做到」,競爭集中在最先進模型的能力競賽;第二階段的問題已經不同——誰能把TCO壓得夠低、把平台做得夠開放,讓更多應用在上面生長,才是真正的決勝點。
接下來幾年,與其看各家發布什麼新模型,不如看推論成本降到哪裡、開發者生態有多活躍,以及有多少垂直應用選擇在平台上發展;這些變數的交會處,才是下一波市場重心真正落腳的位置。對台灣而言,半導體與伺服器供應鏈能否持續協助全球客戶優化整體TCO,將決定我們在這一波Token通縮浪潮中的角色與分量。