AI愈強，Token卻愈便宜

徐宏民

2026-03-03

AI語音摘要

00:47

2023年初，OpenAIGPT-4的API定價約為每百萬token30美元；如今，主流前瞻模型已全面重訂價格：GPT-4o mini降至0.15美元、Anthropic Claude 3.5 Haiku低至0.25美元、Google Gemini 2.0 Flash更壓至0.10美元—降幅從90%到99%不等，而且仍在持續下修。這不是削價競爭，而是深層的技術與市場力量共同作用的結果，並正在引發整個AI生態系的結構性改變。

3個相互強化的力量在同時作用，支撐token價格持續下降。

首先是模型效率的快速提升。

蒸餾（distillation）將大模型的能力壓縮進更小的架構，量化（quantization）降低每次運算的位元需求，混合專家架構（MoE）讓推論時只啟動最相關的小網路。同樣的任務，所需算力持續縮減，而且這個技術優化態勢，還沒止息。

其次，是系統層級的優化。

產業界已清楚Transformer推論的運算瓶頸——矩陣乘法佔了絕大多數計算量，KVCache的記憶體存取效率與頻寬配置直接影響延遲，而批次處理策略則決定整體吞吐量。從編譯器最佳化、推論排程到硬體與系統層的整體優化，讓同一套硬體能服務更多prompt、產出更多token。

以Google為例，透過TPU與模型、系統的協同優化，在特定工作負載下推論能效出現數倍到數十倍等級的提升，顯示推論成本仍有可觀的下降空間。

接著是競爭格局的根本改變。

DeepSeek-R1、Meta LLaMA3、阿里巴巴Qwen2.5等開源模型持續追近閉源frontier模型的效能（約落後7個月），打破少數大廠的定價壟斷。開源模型的全球部署量已佔整體AI使用的約3成，也成了市場定價基準的壓力源。

Token成本的持續下降，正在同步觸發3個層面的連鎖反應。

第一，是AI推論應用的急遽擴張。

當每百萬token的成本從過去的高價模型，下降到數十分美分至數美元等級，大量原本「因成本不具經濟效益」的場景開始跨越可行門檻。個人化郵件撰寫、即時翻譯、文件摘要、程式碼生成、多語客服回覆、會議紀錄整理、合約審閱輔助、報表初稿產生等任務，不再只是試驗性功能，而逐步成為工作流程中的常態模組。

關鍵不在於成本歸零，而在於邊際成本已低到足以長時間、完整部署推論服務，讓AI從「偶爾使用的工具」轉變為持續運行的生產力工具。

第二，是Agent對工作流程的全面滲透。

低成本token是Agent得以規模化的前提。這一點已在市場成長速度上反映出來：Anthropic的營收規模近年快速進入數十億美元級距，年增幅達數倍；Cursor等AI coding工具在短時間內從千萬美元級別，躍升至上億美元年化營收，成為成長最快的一批AI SaaS產品。這些成長快速的新創幾乎無一例外地以agent或workflow automation為核心定位——無論是Anthropic、Harvey、Glean——產品路線指向的是自主代理與垂直工作流程整合，而非單純的聊天介面。一個agent往往需要與多個工具連續互動、發出數十次甚至上百次API呼叫才能完成任務。token成本的每一次下降，都在直接擴大agent可運行的任務邊界與商業規模，同時也引發更多的token用量。

第三是價值的持續上移。

最具體的案例是程式碼生成。Cursor、ClaudeCode等AI coding agent以Claude與GPT-4o為核心引擎，正在重塑開發者的工作流程，而非只是IDE的外掛。Microsoft 365 Copilot、Anthropic Claude將AI能力直接嵌入Excel的公式建議與資料分析、PowerPoint的簡報生成、Teams的即時摘要，使AI不再是獨立查詢工具，而成為日常工作的預設助手。根據DIGITIMES Research的市場觀察，AI產業價值佔比將在2026至2028由硬體逐步轉向軟體與服務，而應用層的滲透速度，將成為下一階段競爭的真正起點。

成本的持續下壓，讓另一端的問題更加凸顯：如何繼續壓低生產token的成本（TCO）？顯現在2個產業核心。

晶片架構是第一個關鍵。各大CSP正加速投入自研ASIC，針對Transformer推論的計算模式深度最佳化，在特定工作負載下可實現數倍等級的能效提升，使算力成本的下降速度不再完全受制於通用GPU的產品節奏。電力則是更根本的制約因素。高密度AI資料中心的電費往往佔營運成本的相當比例，當規模擴張到一定程度，電力取得能力往往比伺服器採購能力更早觸及上限。

近年新資料中心的選址優先順序已悄悄改變——穩定電力供給逐漸取代土地成本成為首要考量。多家能源研究機構預測，全球資料中心電力需求在未來數年將出現倍數成長，AI擴張的真正瓶頸，已從晶片轉向能源。

Token成本持續驟降，是AI進入第二階段的信號。第一階段的核心問題是「能不能做到」，競爭集中在最先進模型的能力競賽；第二階段的問題已經不同——誰能把TCO壓得夠低、把平台做得夠開放，讓更多應用在上面生長，才是真正的決勝點。

接下來幾年，與其看各家發布什麼新模型，不如看推論成本降到哪裡、開發者生態有多活躍，以及有多少垂直應用選擇在平台上發展；這些變數的交會處，才是下一波市場重心真正落腳的位置。對台灣而言，半導體與伺服器供應鏈能否持續協助全球客戶優化整體TCO，將決定我們在這一波Token通縮浪潮中的角色與分量。

AI愈強，Token卻愈便宜

徐宏民國立台灣大學資訊工程學系教授

作者其他文章

推薦活動

讓AI代理為企業全面賦能 - 規劃財務轉型之路

Teledyne FLIR OEM 熱成像 × AI 創新論壇

AI愈強，Token卻愈便宜

徐宏民 國立台灣大學資訊工程學系教授

作者其他文章

推薦活動

讓AI代理為企業全面賦能 - 規劃財務轉型之路

Teledyne FLIR OEM 熱成像 × AI 創新論壇

徐宏民國立台灣大學資訊工程學系教授