AI Token耗量持續攀升—推理模型的崛起與產業重塑

徐宏民

2026-03-04

AI語音摘要

00:53

2022年下半，AI技術出現罕見的結構性轉折。Frontier Model 首度同時展現出真正的泛化（Generalization）與多工能力（Multi-tasking）。

泛化意味著模型學到可擴展的語義與分析能力，能在新的指令形式與問題情境下維持穩定表現；多工則意味著同一套模型可以服務翻譯、摘要、圖片生成、問答等截然不同的場景應用，無需為每個任務另行訓練專用模型。這個突破，使AI從針對單一任務優化的垂直工具，轉變為橫向的通用、高成長智慧服務。同時也對供應鏈產生即時衝擊：自2022年下半起，資料中心的算力需求全面上修，GPU短缺從研究機構蔓延至企業端，並推動整條AI供應鏈——從晶片、伺服器到應用層——重新定位。

2024年的下一步：推理（Reasoning）登場。泛化與多工解決「能做什麼」的問題，卻沒有解決「能想多深」的限制。對話式問答提供足夠解方，但遇到需要多步驟邏輯推導的任務如解數學題、複雜程式除錯、分析法律條文、科學探索、邏輯論證等，模型的能力侷限就被暴露出來。

這個落差，在2024年下半開始逐步被補上。

OpenAI-o1的發布標誌著推理時代的開始。推理模型呈現出更接近「System-2」的思考方式——借用心理學家康納曼（Daniel Kahneman, 1934~2024）的框架：System-1是快速直覺式的反應，System-2是緩慢刻意的深層推理。在實際運作中，推理模型不會直接輸出答案，而是先在內部展開較長的（推理）思維鏈（Chain-of-Thought, CoT），逐步分解問題、排查矛盾、整合邏輯，再收斂出最終回應。數學推導、程式除錯、法律條文解析、醫療決策輔助——這些原本只有專業人士才能應付的複雜任務，開始出現跨越式的能力提升。

推理能力的形塑，來自幾個相互強化的技術突破。最基礎的是思維鏈CoT訓練。模型在訓練時被要求把推理過程一併展開，而非直接給最終答案，強迫模型在解題時學會分解問題、逐步推進。這種推理的引導，顯著提升複雜邏輯任務的表現。

其次是強化學習（Reinforcement Learning）的深度整合。

模型透過持續與真實任務互動並接收回饋，逐步找出「真正有用的答案」而非「聽起來合理的答案」——這成為推理品質得以持續演進的核心機制。值得注意的是，強化學習的獎勵機制，也間接強化模型「用更多token想清楚」的行為傾向——更長的思維鏈往往對應更好的答案，模型在訓練中學會以算力（更多token）換品質。

第三條路是推論時擴展（Test-Time Scaling），被視為繼預訓練（Pre-training）、後訓練（Post-training）之後的第三條scaling law：不必重新訓練模型，只需在推論（inference）階段投入更多運算資源，讓模型「想更久」，就能換取更好的答案品質。正因如此，隨著用戶數量增加，據報導，目前實際對用戶服務時的推論運算需求，已經高於模型訓練階段的算力消耗。

推理能力的代價，直接反映在token用量上。傳統問答模式下，一次查詢平均消耗數百個token；推理模型因為需要展開較長的內部推理步驟，每次查詢的使用量往往是傳統模式的10到50倍。這種倍數效應已在市場流量結構中浮現：目前推理模型的token使用量，已佔整體LLM流量的6成以上，預計會持續增長。這不只是技術規格的改變，而是整個算力需求預測邏輯必須重新計算的開始。

當推理能力成熟，一個更大的結構性轉變隨之而來：Agent 的崛起。

Agent （代理人）不是升級版的聊天機器人，而是具備目標驅動、自主規劃與多步驟執行能力的AI系統。沒有深層推理，Agent只是預先編排好的流程；有了推理，它才能在複雜流程中深度思考，做出判斷、處理例外、在不確定性中高價值任務。

程式設計是第一個Agent的突破點。GitHub Copilot、Anthropic Claude與Cursor的AI coding工具，目前市佔各約24%至25%，生產力提升幅度估計達1.5至3倍。從成長速度可以感受到市場反應的強度：Anthropic的年化營收（ARR）在2025年年增幅逾 800%，Cursor從1億美元成長至10億美元、年增達900%。法律、醫療、財務等垂直領域的跟進速度也正在加快：據報導，Harvey的法律AI ARR已達1.5億美元。

OpenEvidence在臨床醫療場景的ARR同樣超過 1.5 億美元。這些垂直應用的共同特徵，在於它們都依賴多步驟推理——不只是查詢資料庫，而是在法條、案例與臨床指引之間做出複合判斷，處理真實世界中的模糊與矛盾。

推理的架構決定token耗量只會持續增加。

每個新應用場景導入、每個Agent工作流程啟動，都意味著更多的思考步驟與更高的算力消耗——這是推理模型的設計本質，不會因為效率優化而消失，只會因為應用範疇擴大而放大。對半導體、伺服器、高頻寬記憶體供應鏈而言，這是結構性的長期需求訊號。

當推理能力從數位工作流程走向實體世界，影響規模可能再擴大一個量級。工廠排程、醫療診斷輔助、教育個人化、法律文件審查——這些場域一旦嵌入自主推理能力，改變的不只是工具，而是企業工作流程與人員分工的重組。這種重組很可能使對ICT基礎建設的需求，從一次性的升級，轉為更長期的投入。

這波AI資本投入是否會在建設高峰後趨於平緩？推理模型提供一種不同的結構性邏輯。其特性在於，應用規模的擴張會直接轉化為持續性的推理運算需求，而不僅是一次性的部署成本。當前推論已成為AI算力負載的主要來源，而推理型推論的運算佔比不斷攀升。再加上方興未艾的Agent架構興起，以及各種以token消耗為核心的智慧服務快速普及，算力需求將不再僅僅隨模型訓練週期波動，而是與日常使用頻率高度綁定。

當使用深度與應用廣度持續擴張，供應鏈從晶片、記憶體到電力基礎設施所面對的需求動能，可能更接近結構性成長，而非單一景氣循環所驅動。

延伸報導專家講堂：AI愈強，Token卻愈便宜

AI Token耗量持續攀升—推理模型的崛起與產業重塑

徐宏民國立台灣大學資訊工程學系教授

作者其他文章

推薦活動

讓AI代理為企業全面賦能 - 規劃財務轉型之路

Teledyne FLIR OEM 熱成像 × AI 創新論壇

AI Token耗量持續攀升—推理模型的崛起與產業重塑

徐宏民 國立台灣大學資訊工程學系教授

作者其他文章

推薦活動

讓AI代理為企業全面賦能 - 規劃財務轉型之路

Teledyne FLIR OEM 熱成像 × AI 創新論壇

徐宏民國立台灣大學資訊工程學系教授