AI Token耗量持續攀升—推理模型的崛起與產業重塑

徐宏民
2026-03-04
AI語音摘要
00:53

2022年下半,AI技術出現罕見的結構性轉折。Frontier Model 首度同時展現出真正的泛化(Generalization)與多工能力(Multi-tasking)。

泛化意味著模型學到可擴展的語義與分析能力,能在新的指令形式與問題情境下維持穩定表現;多工則意味著同一套模型可以服務翻譯、摘要、圖片生成、問答等截然不同的場景應用,無需為每個任務另行訓練專用模型。這個突破,使AI從針對單一任務優化的垂直工具,轉變為橫向的通用、高成長智慧服務。同時也對供應鏈產生即時衝擊:自2022年下半起,資料中心的算力需求全面上修,GPU短缺從研究機構蔓延至企業端,並推動整條AI供應鏈——從晶片、伺服器到應用層——重新定位。

2024年的下一步:推理(Reasoning)登場。泛化與多工解決「能做什麼」的問題,卻沒有解決「能想多深」的限制。對話式問答提供足夠解方,但遇到需要多步驟邏輯推導的任務如解數學題、複雜程式除錯、分析法律條文、科學探索、邏輯論證等,模型的能力侷限就被暴露出來。

這個落差,在2024年下半開始逐步被補上。

OpenAI-o1的發布標誌著推理時代的開始。推理模型呈現出更接近「System-2」的思考方式——借用心理學家康納曼(Daniel Kahneman, 1934~2024)的框架:System-1是快速直覺式的反應,System-2是緩慢刻意的深層推理。在實際運作中,推理模型不會直接輸出答案,而是先在內部展開較長的(推理)思維鏈(Chain-of-Thought, CoT),逐步分解問題、排查矛盾、整合邏輯,再收斂出最終回應。數學推導、程式除錯、法律條文解析、醫療決策輔助——這些原本只有專業人士才能應付的複雜任務,開始出現跨越式的能力提升。

推理能力的形塑,來自幾個相互強化的技術突破。最基礎的是思維鏈CoT訓練。模型在訓練時被要求把推理過程一併展開,而非直接給最終答案,強迫模型在解題時學會分解問題、逐步推進。這種推理的引導,顯著提升複雜邏輯任務的表現。

其次是強化學習(Reinforcement Learning)的深度整合。

模型透過持續與真實任務互動並接收回饋,逐步找出「真正有用的答案」而非「聽起來合理的答案」——這成為推理品質得以持續演進的核心機制。值得注意的是,強化學習的獎勵機制,也間接強化模型「用更多token想清楚」的行為傾向——更長的思維鏈往往對應更好的答案,模型在訓練中學會以算力(更多token)換品質。

第三條路是推論時擴展(Test-Time Scaling),被視為繼預訓練(Pre-training)、後訓練(Post-training)之後的第三條scaling law:不必重新訓練模型,只需在推論(inference)階段投入更多運算資源,讓模型「想更久」,就能換取更好的答案品質。正因如此,隨著用戶數量增加,據報導,目前實際對用戶服務時的推論運算需求,已經高於模型訓練階段的算力消耗。

推理能力的代價,直接反映在token用量上。傳統問答模式下,一次查詢平均消耗數百個token;推理模型因為需要展開較長的內部推理步驟,每次查詢的使用量往往是傳統模式的10到50倍。這種倍數效應已在市場流量結構中浮現:目前推理模型的token使用量,已佔整體LLM流量的6成以上,預計會持續增長。這不只是技術規格的改變,而是整個算力需求預測邏輯必須重新計算的開始。

當推理能力成熟,一個更大的結構性轉變隨之而來:Agent 的崛起。

Agent (代理人)不是升級版的聊天機器人,而是具備目標驅動、自主規劃與多步驟執行能力的AI系統。沒有深層推理,Agent只是預先編排好的流程;有了推理,它才能在複雜流程中深度思考,做出判斷、處理例外、在不確定性中高價值任務。

程式設計是第一個Agent的突破點。GitHub Copilot、Anthropic Claude與Cursor的AI coding工具,目前市佔各約24%至25%,生產力提升幅度估計達1.5至3倍。從成長速度可以感受到市場反應的強度:Anthropic的年化營收(ARR)在2025年年增幅逾 800%,Cursor從1億美元成長至10億美元、年增達900%。法律、醫療、財務等垂直領域的跟進速度也正在加快:據報導,Harvey的法律AI ARR已達1.5億美元。

OpenEvidence在臨床醫療場景的ARR同樣超過 1.5 億美元。這些垂直應用的共同特徵,在於它們都依賴多步驟推理——不只是查詢資料庫,而是在法條、案例與臨床指引之間做出複合判斷,處理真實世界中的模糊與矛盾。

推理的架構決定token耗量只會持續增加。

每個新應用場景導入、每個Agent工作流程啟動,都意味著更多的思考步驟與更高的算力消耗——這是推理模型的設計本質,不會因為效率優化而消失,只會因為應用範疇擴大而放大。對半導體、伺服器、高頻寬記憶體供應鏈而言,這是結構性的長期需求訊號。

當推理能力從數位工作流程走向實體世界,影響規模可能再擴大一個量級。工廠排程、醫療診斷輔助、教育個人化、法律文件審查——這些場域一旦嵌入自主推理能力,改變的不只是工具,而是企業工作流程與人員分工的重組。這種重組很可能使對ICT基礎建設的需求,從一次性的升級,轉為更長期的投入。

這波AI資本投入是否會在建設高峰後趨於平緩?推理模型提供一種不同的結構性邏輯。其特性在於,應用規模的擴張會直接轉化為持續性的推理運算需求,而不僅是一次性的部署成本。當前推論已成為AI算力負載的主要來源,而推理型推論的運算佔比不斷攀升。再加上方興未艾的Agent架構興起,以及各種以token消耗為核心的智慧服務快速普及,算力需求將不再僅僅隨模型訓練週期波動,而是與日常使用頻率高度綁定。

當使用深度與應用廣度持續擴張,供應鏈從晶片、記憶體到電力基礎設施所面對的需求動能,可能更接近結構性成長,而非單一景氣循環所驅動。

延伸報導專家講堂:AI愈強,Token卻愈便宜

現任國立台灣大學資訊工程學系教授,曾任富智捷(MobileDrive)技術長暨副總經理,推動ADAS及智慧座艙系統產品進入全球車用市場。紐約哥倫比亞大學電機博士,專精於機器學習、電腦視覺、自駕車、機器人等領域。為訊連科技研發團隊創始成員,慧景科技(thingnario)共同創辦人,NVIDIA AI Lab計畫主持人;曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會,擔任多家科技公司AI策略顧問。
智慧應用 影音