過去一年多,大型語言模型(LLM)的「推理」已成為主流模型的標準配置。從2024年下半開始,長思考鏈與強化學習訓練逐漸在各主流模型中普及,在程式設計、數學、法律、醫療等資訊密集的領域確實展現效果。
這套能力的基礎,在於語言世界本身提供大量訓練素材,而且推理的對錯可以被直接驗證。
傳統工業機器人從來不需要推理。它們的設計前提清楚:事先設定動作序列,在結構固定的環境裡重複執行,不需要應變。一台焊接手臂每天走同一條軌跡,分揀機器人在預先規劃的路線上來回——對這類任務而言,彈性是多餘的。這個前提在過去幾十年運作得很好,但它的邊界也很清楚:換了場景就得重新設定,出了例外就得人工介入。
但這個限制正在被鬆動,而且是產業必須認真面對的突破。下一代自主機器人的目標截然不同:接受一道自然語言指令,在開放場域中自主運作10個小時以上,途中能察覺例外、調整計畫、完成任務,不需要人在旁監看。要做到這件事,機器人必須能「推理」。這個能力能否真正落實,很可能就是機器人產業下一輪典範轉移的關鍵技術。
如果機器人在實體世界也開始可以「推理」(深度思考)了呢?
想像機器人第一次進入陌生的空間:需要電源,但插頭可能藏在電視機後面,要自行判斷從哪個角度找得到;被交代「把廚房收一下」,必須把這個模糊指令拆解成十幾個子動作,決定先收什麼、後收什麼;面對一台沒見過的微波爐,要推論哪顆鍵是加熱、設定多久合理;桌面已滿,拿著餐盤不知道往哪放,得判斷能否先挪開某個物件;工廠的儀表讀數被管線遮住,要推測是換個視角、還是移開管線才能看清楚;前往下一個位置的路徑被外物堵住,要決定是等、是繞、還是主動清出空間。這些情境的共同特徵是:答案不在事先設定的規則裡,機器人必須把視覺線索、空間常識、任務目標即時整合,做出當下的判斷。
然而,同樣的推理機制搬到實體空間,就會明顯失靈。根本原因在於資料結構不同。LLM的推理之所以可行,是因為語言有豐富的文字序列供訓練,答案也可被清楚驗證。但3D實體場景缺乏這種天然的監督訊號——沒人會持續為自己的空間、物件位置、姿態變化做標註,「開關大致在門邊牆面」「開罐器通常放在廚房抽屜」這類空間常識,沒有網頁規模的訓練資料可以依靠。
長時序規劃是另一層難點:指令一旦複雜,機器人必須把目標拆解成數十個子動作並在執行途中不斷應變,研究顯示純LLM在這類任務上的錯誤率會隨步驟數超線性上升,沒有外部驗證機制,難以可靠完成任務。
針對具身推理,研究圈已在幾個方向同步推進,核心問題都是讓推理過程能與實體世界的真實狀態掛鉤——不只是語言上說得通,還要能被驗證、能指導動作。方向從讓機器人行動前先寫出推理過程、到把推理步驟對應到空間幾何預測、再到讓機器人從實際嘗試的結果中修正自己的推理,各有側重,也各有代價。整體仍在研究階段,尚未出現明確勝出的路徑;但幾個方向的進展都比幾年前快,可見度也愈來愈高。
這套推理能力的實際部署,可能採取分層架構。目前機器人邊緣運算平台的運算能力已進入千TOPS等級,足以在本地端即時執行推理模型,完成大多數動作決策。遇到需要更深層推理的任務,例如複雜場景規劃或多步驟的例外處理,若時間允許,可以呼叫雲端較大的模型做更完整的推理,再把結果傳回邊緣端執行。
這種金字塔式的分工,讓即時執行與推理深度可以依任務彈性切換,不必在兩者之間硬性取捨。
在這個背景下,前面提過的世界模型(world model)與推理的關係也愈來愈值得關注。上一篇已介紹過世界模型在感知與表徵上的角色;在推理層面,它的潛在貢獻是讓機器人在行動之前能先「模擬」:預測推開某個物件後場景會如何改變、抓取某個位置後會遭遇什麼阻力。如果推理可以借助這種前瞻性的物理預測,驗證就不只是事後比對,而是在行動前就能排除不合理的計畫。這個方向目前仍在早期,但已被納入幾個主要機器人基礎模型的路線圖。
LLM推理能力的突破,帶來的不只是「模型更聰明」——而是讓AI能進入法律文件分析、醫療診斷輔助、軟體開發等原本需要高度專業判斷的領域,改變工作流程,在部分商業場域引發典範轉移。具身推理若能達到類似的可靠程度,讓機器人在不確定的實體空間裡真正能規劃、應變、判斷,潛在的變化幅度可能同樣深遠。工廠、物流、照護、服務,這些領域長期需要「能判斷、能應變」的自主執行能力,卻一直缺乏可靠的技術支撐。
自主機器人的產業天花板,很可能取決於推理能走多深、場域能延伸多遠。