DIGITIMES - 椽經閣

VLA機器人的「安全」該如何設計？

服務型與移動型機器人在商業場域的部署密度，過去3年明顯加速，巡檢、倉儲、餐飲、商場、醫院物流、戶外遞送逐一導入；這些機器人驅動核心仍以預先定義的規則與固定流程為主。緊接而來的技術主軸，是 VLA（Vision-Language-Action）架構：以 LLM/VLM 為大腦，幫助機器人理解自然語言指令、在更有彈性的情境下做決策，展現傳統機器人沒有的適應力與自主性。但更多能力、彈性，也隱含更多風險。「安全」這件事被相對低估了。新一代VLA驅動機器人的安全框架，不是把工業機器人那套「圍欄加急停」放大就能沿用。傳統機器人的安全是工程問題——感測器劃出實體禁區、動作在認證階段鎖定。VLA 的彈性打破既有前提，使過去二十年的安全工程資產難以直接套用。指令本身成為新的誤解與攻擊面，至少4類風險是傳統安全框架沒處理過的。第一類是指令層的攻擊面。LLM 本身的越獄（jailbreak）與prompt injection攻擊，在接上動作決策點之後會整套傳染到實體世界；語言領域的「胡言亂語」，到VLA場景就成為危險動作。第二類是語義對齊不等於動作對齊（linguistic-action alignment gap）；預訓練的安全對齊主要發生在語言輸出層，動作空間沒有經過同等強度的對齊；同一個危險指令，語言層可能拒絕回應，動作層卻不受這道防線約束。第三類是物件安全盲點。當指令是「把桌上的東西收走」，模型不會自動區分刀具、藥瓶、熱飲與一般雜物。第四類是自損與環境碰撞。忽視自身硬體限制與場域結構，產生魯莽動作與反覆碰撞，既損壞機器人也威脅週邊人員。更根本的限制是開放世界的長尾。訓練資料不可能涵蓋所有場景，模型對「角落情境」（corner cases）的行為難以預測。這個問題在自駕車已反覆驗證，15年里程累積仍不足以壓平長尾；而服務型機器人的場景空間只會更發散，道路有車道線可循，商場走道、醫院走廊、倉儲區交叉口卻沒有同等清晰的邊界。傳統安全方案多仰賴控制障礙函數（Control Barrier Function；CBF）這類實體濾波器，如同為機器人設下一層「電子圍籬」，在數學上保證其不進入物理禁區。這套方法在低自由度系統有效，但面對高自由度機械臂、或在複雜場域運作的移動機器人時，狀態空間會指數成長。更根本的是，它也處理不了「指令本身就危險」這類不在實體空間發生的風險。實體濾波器只看機器人自身的狀態空間，不問它正在互動的物件是什麼。CBF可以保證機械臂的關節角度不超出安全範圍、末端執行器不撞到牆，但它不知道夾爪握著的是水瓶還是藥瓶。填補這個空缺的新興方向，是把物件的情境危險性納入規劃。已經有研究團隊讓模型在生成動作序列時，把「這個瓶子裡是藥」、「這個容器裡是熱飲」、「這把工具是尖銳的」一併納入考量，在餐飲、醫院、倉儲等場景特別關鍵。近年學界也從2個方向補上指令層的缺口。一個方向是執行前的判斷：當機器人偵測到指令超出自身能力，或在語義上有潛在危害時，應主動棄權（abstain）而非硬做。另一個方向是執行中的監控：在模仿學習（Imitation Learning）策略運作時，用另一個輕量模型即時評估策略輸出是否異常，一旦偏離就觸發人工接管或安全模式。我們最近的兩個研究（VLN-NF與AED）對應的就是這兩件事：執行前的「要不要做」，與執行中的「做錯了要怎麼儘早發現」。把實體濾波器與語義層的行為守護者並置，是目前能實際部署的務實組合。真正決定 VLA 機器人能否走出demo、進入大規模部署的，其實不是「永遠不出錯」，而是「出錯之後能救回來」。這個觀念在安全工程裡有個說法叫Safety II：重點從「避免失效」轉向「維持韌性」。自駕車產業花了多年才建立「最小風險操作」（minimal risk maneuver）的觀念：當系統無法繼續行駛時，車輛要能自主進入安全停等狀態——例如平順減速、打方向燈、靠邊停車，而不是直接把方向盤拋回給駕駛。這件事在規範上看似直觀，在工程上卻極為困難：需要另一套獨立於主自駕系統的冗余去判斷「何時我已經不該繼續」，並在有限時間內完成安全退場。服務型機器人可能會有類似路徑，但場景更複雜。工廠可以急停，商業場域不行——餐廳送餐機器人在用餐高峰停在走道中央，擋住的是出餐動線與服務生通道；醫院物流機器人若在走廊中央斷電，擋住的可能是緊急推床；倉儲AMR若在交叉口卡住，後面可能有一整列後續車輛與作業人員。這些場景都沒有「路肩」這種已被定義好的安全區可以退守，恢復行為本身就必須是一個具備情境判斷的決策，而不是一個預設動作。傳統的恢復機制是寫死的規則：抓失敗就重試、路徑不通就後退。但VLA的動作空間遠比工業機器人複雜，規則式恢復很快碰到上限。新一代的研究方向，例如牛津大學（Oxford）團隊2026年提出的CycleVLA，讓機器人具備「子任務回溯與重新採樣」的能力：偵測到異常狀態時，退回上一個合理子任務重新生成動作序列，而不是在當前已經失敗的軌跡上一路錯下去。這條路線把恢復從「固定流程」變成「動態決策」。技術之外，另一個正在快速逼近的議題是標準與認證。工業機器人（ISO 10218於2025年大改版）、倉儲移動機器人（ISO 3691-4、北美ANSI/RIA R15.08）、服務機器人（UL 3300於2025年獲OSHA認可）3條軌道各自在不同成熟度；EU AI Act與EU Machinery Regulation 2023/1230（2027年1月生效）則已把自主機器人列為高風險系統，要求風險管理、可解釋性與即時監督介面。但VLA這類具備語言理解與自主決策能力的系統，目前沒有任何一套標準完整覆蓋。設計上除了優化能力，也必須對齊安全與合規，這已是能否回應RFQ/RFI的基本門檻。VLA機器人的競爭力，未來幾年不會在於誰的動作最快、誰的模型最大，而在於誰的系統在面對未知環境與突發錯誤時，能同時展現出多層安全能力：實體濾波器守住空間邊界，物件安全約束判斷互動對象的情境危險性，語義守護者決定要不要做，韌性恢復決定做壞了還能否回到正軌。這些AI層的能力都運行在硬體層的傳統安全primitives（獨立MCU、扭矩限制、機械e-stop）之上；硬體地基仍然必要，但新一代的安全能力都落在AI層。四層缺一不可，而每一層都還有明顯的技術推進空間。這也說明安全不是機器人上市前的選配功能，而是整個系統設計的地基。對準備切入這個產業的團隊而言，智慧安全防護做得多深、多早，很可能決定產品能走多遠。

物聯網控制的微型世界

一個微型世界（minimture world）的環境反映廣闊的大世界。在這樣的微型世界裡，就像你突然變成巨人，置身於最微小的村莊之中，這是孩子們夢寐以求的情景。隨著今天物聯網（IoT）技術的先進發展，互動的微型世界可以實現，使孩子們的夢想成真。私人模型村莊和微型公園可能自19世紀就已存在，但直到1930年代到1950年代，這一類型才發展成為旅遊景點。早期的例子包括英國的Bekonscot和Bourton-on-the-Water。「小小世界」的概念是由迪士尼（Water Disney）為聯合國兒童基金會（UNICEF）支持創建的，並為 1964～1965年紐約世界博覽會製作。該景點非常受歡迎，經過2個展示季後，被運往迪士尼樂園，於1966年5月28日開放。自那時起，它被擴展到包括2024年在日本東京推出的「小小世界與格魯特」。自1960年以來，許多微型世界相繼建造。例如，在莫斯科的麗笙酒店一樓，有一個名為「Diorama Moscow 」微型世界。它展示1977年莫斯科市中心的模型，比例為1:75。模型上方的照明變化，呈現日夜場景，非常壯觀。現有的商業營運微型世界為觀眾提供一個極好的單向用戶體驗。然而，據我們所知，這些微型世界中，沒有一個允許觀眾遠程控制微型設施，例如交通燈、降雨、風等元素。換句話說，微型世界的組件與觀眾之間的互動是有限的。此外，據我們所知，學術文獻主要關注於網路世界的虛擬現實或增強現實方面，這些並不如實體世界那麼吸引人。目前沒有研究探討觀眾與實體微型世界互動的體驗。於是我們和初上石公司的林瑞堂先生合作，發展出DioramaTalk，通過使用物聯網（IoT）和人工智慧（AI）技術，使遠距互動成為可能。這個方法應用於名為微型福爾摩沙（Miniature Formosa）的微型世界。微型福爾摩沙由初上石商業營運，展示台灣的美麗景點，包括台南的大東門（圖1（3））、野柳的女王頭、花蓮的太魯閣峽谷等。微型福爾摩沙的一個特點是其他微型世界沒有的，就是它允許模型車在微型道路上賽車。每輛車（圖1（4））都配備1個前視鏡頭，提供視訊串流以指導觀眾進行遠程駕駛。此外，微型福爾摩沙在圖1中的（5）到（10）位置安裝6個固定旋轉鏡頭。DioramaTalk是基於IoTtalk開發的應用平台，其中微型福爾摩沙的所有感測器和致動器都被視為物聯網設備。微型福爾摩沙使用多個鏡頭圖像來確定車輛的位置。這涉及處理來自6個固定鏡頭的實時圖像，每個鏡頭以30 FPS運行，需要快速且準確的位置反饋。視訊圖像被發送到DioramaTalk進行車輛檢測和追踪。DioramaTalk以YOLO（You Only Look Once）處理視訊圖像，將之保存在名為ImageDB的數據庫中。DioramaTalk分析ImageDB中的視訊圖像，以檢測路口的交通狀況，將檢測結果發送到顯示設備和Diorama致動器，以控制交通燈。DioramaTalk在交通訊號化、工作區營運和匝道控制等領域進行車輛隊列消散分析。它利用深度學習準確捕捉混合交通流的隊列特徵，並提供強大的消散持續時間估計，從而最佳化交通燈信號規劃。DioramaTalk的經驗告訴我們，智慧城市的AI模型可以在微型福爾摩沙的模擬環境中進行預訓練，加速它們在現實世界環境中的訓練。在智慧城市的AI和物聯網應用實際推出之前，可以將它們方便地集成到 DioramaTalk，在微型福爾摩沙模擬環境中模擬它們。其次，最重要的是，我們為孩子們提供與微型世界互動的樂趣。

機器人訓練資料從哪裡來？

太平洋兩岸的機器人新創與頂尖實驗室，這一年來在一件事上達成共識：模型架構不再是唯一焦點，資料成為競爭的核心資源。不論技術路線如何演變，多數團隊最終都會遇到同一個瓶頸——機器人行動「訓練資料」的規模嚴重不足。大語言模型的成功，建立在數十兆個從網路爬取的文字資料上；機器人需要的是機器人在真實物理環境中的動作序列、感測器數值與任務標註。研究估算，目前主流機器人訓練資料集的規模，比語言模型少了3個數量級以上。2025年底，Physical Intelligence的π₀在少量示範後的自主執行中，於數分鐘內完成疊衣任務；NVIDIA 的GR00T N1.6在同一個模型框架下可以同時操控7種不同機械手臂。這類進展的背後，架構設計看似重要，但資料規模才是關鍵。資料缺口，是機器人基礎模型能否真正大規模實際部署的天花板。面對這個落差，學術與產業界正從4個方向同時突破資料障礙：遙控示範、模擬器、網路影片、穿戴設備。4條路線各具特色，可以互相配搭。遙控示範（teleoperation）是目前高品質資料的主要來源。操作人員透過 VR 頭盔或主從控制臂等遠端介面操控機器人，系統同步記錄動作序列與感測器數據：資料真實，實體互動完整，動作標註精確。openVLA的訓練基礎就是採用97萬筆這類示範資料。近來也出現更輕量的工具，史丹福大學（Stanford）團隊開發的 UMI（Universal Manipulation Interface）以手持夾爪裝置，內建魚眼鏡頭與慣性感測器，操作人員在任意場景示範即可錄製，大幅降低收集門檻。問題在於規模：每筆資料仍需人力投入，以中國各地的機器人訓練中心為例，工作人員每天重複數百次開關微波爐、疊衣服，擴張速度終究受制於人力極限。模擬器（simulator）提供的是另一個極端：近乎無限的資料量、幾乎零邊際成本、可精確控制場景參數。從商業平台到MuJoCo、Genesis等開源工具，各樣投入都在朝高逼真物理模擬推進。但核心難題不在畫面是否逼真，而在接觸力學（contact dynamics）：兩物體碰觸瞬間的摩擦力、形變與反作用力，即使模型極度精細，轉移到真實機器人後仍常出現誤差。布料、電線、食材等柔性物體尤為困難，傳統剛體模擬難以精確處理。面對sim-to-real gap，目前嘗試2條路線：一是「域隨機化」（domain randomization），刻意擾動光影、質感、摩擦係數，讓模型學會不依賴特定環境特徵；二是 NVIDIA 的Cosmos世界基礎模型，以大量真實影像學習物理直覺，讓神經網路本身充當更逼真的模擬器。2條路都有進展，但讓模擬器成為可靠的免費資料工廠，仍有一段距離。網路影片是規模最大、卻最難直接使用的來源。YouTube上海量人類執行日常任務的影像，蘊含豐富的物件互動與動作語義，但影片裡看不到力道、關節角度與夾爪狀態，也沒有任何動作標註，且人手與機器人末端執行器存在根本的形態差異（embodiment gap）。Meta的Ego4D等大規模第一視角人類行為資料集，是目前這個方向最具代表性的嘗試。跨具身學習（cross-embodiment learning）是跨越這道障礙的主要技術路線：透過匯集來自不同機器人平台與人類示範的資料聯合訓練，讓模型學到不依賴特定硬體形態的通用動作表示；我們近期的研究也證實，這是一個有效的策略。具身智慧（Physical Intelligence）最新研究進一步顯示：當跨具身預訓練規模足夠大，「人類影片遷移到機器人動作」的能力會自然出現，不需要複雜的動作轉換層，意味著網路影片的可用性比原本預期的更高。穿戴設備（wearable devices）是最近快速發展的路線。輕量外骨骼或動作捕捉裝置讓操作人員在自然場景中活動，同步記錄全身動作與環境互動，再轉換為機器人可學習的格式。NuExo、HumanoidExo已能在戶外場景收集全上肢動作資料，場景多樣，資料自然，操作者的活動自由度也遠高於固定工作站的遙控示範。難點在於「動作轉換」（motion retargeting）：人體關節結構與機器人機械結構不完全對應，需要精密幾何映射，且轉換品質因平台而異。綜合目前領先團隊的做法，目前正在收斂出一個「兩段式」資料架構，邏輯上與LLM的預訓練／微調高度相似。第一階段是大規模、多元的預訓練，以網路影片、合成模擬資料為基礎，讓模型建立視覺語義與通用動作直覺；第二階段是少量、高品質的微調，以遙控示範或穿戴設備錄下的真實機器人資料，將能力實際部署到特定任務與平台。各家在這個資料策略的分歧，集中在對模擬器的信任程度。NVIDIA的GR00T N1是「重模擬」策略的代表：訓練資料呈3層金字塔，底層是網路影片與人類動作影像，中層是Isaac平台與Cosmos模型生成的合成軌跡，頂層才是真實遙控示範資料。NVIDIA曾在11小時內生成78萬條合成軌跡，相當於6,500小時人工示範；加入合成資料後，模型表現比純真實資料提升40%，是其力推模擬路線的具體依據。相對地，許多新創——尤其是中國團隊——對sim-to-real持保留態度。在精細操作上，模擬器的接觸力學與真實世界仍有落差，與其花工程資源橋接誤差，不如直接擴大真實資料的收集規模。具身智慧的 π₀以橫跨7種機器人平台、68項任務、超過1萬小時的遙控示範資料進行跨具身預訓練，針對新任務微調僅需1至20小時。Generalist AI的GEN-0則更為徹底，完全不用模擬，以27萬小時的純真機互動資料訓練，每週持續新增逾萬小時。這幾條路線背後有一個共同的結構：遙控示範與穿戴設備錄下的資料，目前主要扮演「微調材料」而非「訓練主體」的角色，提供的是最後那10%讓模型真正能用的能力，而非語義理解的來源。這個分工，正在促使各條路線重新定位自己的核心競爭力：模擬器拚的是物理引擎真實度，網路影片拚的是動作標註技術，遙控示範拚的是針對特定任務的示範品質。投資機構（如Merrill Lynch）預估2025年全球人形機器人出貨量約1.8萬台，是2024年的7倍；協作型機械手臂、自主移動機器人（AMR）等更成熟的平台部署規模更大，也都在加速整合新一代AI模型。電動車廠與第三方物流業者已在工廠與物流中心商業運轉。資料積累與部署量之間的正向循環已開始運作：部署量愈大，場域資料愈多；資料愈多，模型泛化愈強；模型愈強，部署門檻愈低。真正的競爭優勢，在於誰能以最符合成本的方式取得有效資料、在實際場域中持續迭代，進而建立起真正的資料護城河（moat）。

智慧機器人如何學動作技能？

煎蛋翻面不到2秒，但每一步都是連續的感測判斷與力道決策；塗果醬、擺餐盤同樣如此。這類「低階技能」（atomic skill）的難點不在於執行固定軌跡，而在於複雜環境正確執行。前一篇討論的VLA架構解決的是（高階）任務規劃，本文要回答的是更深入的問題：機器人怎麼把每一個（低階）基本動作做好？傳統工廠機器人的動作，是不同性質的事。抓取、插件、焊接、鎖螺絲，關鍵字是「重複性」與「受控條件」：同一款零件在同一個位置，同樣的夾爪、同樣的軌跡、同樣的速度，不需要處理複雜變動環境。這類動作可以用固定程式精確執行，但容錯空間極低，環境稍有偏差就失效。過去教導機器手臂的主流方式，叫「示教法」（teach-and-playback）：操作員透過示教器（teach pendant）將手臂逐點移至目標位置、記錄各路徑點的關節角度，再讓機器人依序重放。環境固定的場景至今仍適用，但示教法本身沒有感測（甚至推理）能力——它只知道「下一個路徑點在哪裡」，換了零件或場景就要重新示教，遇到變動情境也無從判斷。從「執行固定軌跡」到「應對多變場景」，需要從根本上換一種動作學習邏輯。目前學界與業界收斂出2條主軸：強化學習（Reinforcement Learning；RL）與模仿學習（Imitation Learning；IL）。強化學習（RL）的基本邏輯是「從嘗試中學習」。機器人不看示範，自行在環境中試探；每次行動之後，根據結果的好壞（「獎勵信號」）調整策略，慢慢摸索出完成任務的方法。理論上，只要定義好成功標準（比如「蛋翻面後完整不破」），機器人甚至可能摸索出人類沒想到的解法。但是，RL在實體機器人上有一個根本缺陷：它需要大量的試誤次數才能收斂，而每一次試誤在真實機器人上都消耗時間，且有損壞設備的風險。在模擬器裡可以讓機器人不眠不休地失敗幾百萬次；搬到真實機器人上，同樣的學習量可能需要幾年。這就是為什麼 RL 在機器人領域目前主要的定位，是在模擬環境中預訓練，而非從頭在實體上學習。模仿學習（IL）走的是另一條路：讓機器人觀察人類示範，從中學習，而非從零試誤。在理解模仿學習之前，有一個基礎概念值得先釐清：「策略」（policy）。策略是機器人的決策核心：給定當下的感測狀態（攝影機畫面、關節角度、觸覺數值），輸出下一步應該執行的動作。訓練機器人動作的本質，就是在訓練一個好的策略。最直覺的模仿學習方式叫行為複製（behavioral cloning）：把人類示範的「狀態與對應動作」當作訓練資料，用監督式學習訓練策略。簡單，但有一個根本弱點：示範都是「做對了」的過程，機器人從未學過「偏掉了該怎麼辦」。執行時只要出現細微偏差，後續每一步的判斷都可能進一步出錯，誤差層層累積。任務愈長、步驟越多，這個問題愈致命。目前解決這個問題最具代表性的方向是「擴散策略」（Diffusion Policy）。它的技術來自於這幾年大家熟悉的（影像）生成式 AI，背後用的就是擴散模型：從隨機雜訊出發，經過多輪降噪處理，逐漸收斂出高品質影像。研究人員把同樣的架構搬進機器人控制，把輸出從畫素值換成連續的動作序列。傳統行為複製傾向輸出「平均解」，遇到同一任務有多種合理做法時往往哪邊都不對。擴散策略換了角度：不輸出單一動作，而是學習「給定當下狀態，合理動作的機率分布」，再從這個分布中採樣。降噪過程同時生成接下來若干步的完整動作序列，讓機器人不必每一步重新決策，動作因此更穩定、流暢。在相對少量的示範資料條件下，Diffusion Policy就能讓機器手臂完成需要精細力道控制的操作任務，是目前資料效率與效果兼顧最好的方法之一。更新的策略學習方向是「流匹配」（Flow Matching）。概念更直觀：與其從雜訊出發反覆降噪，不如直接學習從雜訊到目標動作的最短路徑，推論步驟因此大幅減少，速度更快、訓練也更穩定。目前已有機器人基礎模型採用此架構，在學界與業界逐漸受到重視。2條路線各有天花板。RL的試誤成本在實體機器人上難以接受，目前主要在模擬環境中預訓練，而非直接在實體上學習。IL的效果上限受制於示範資料的品質，示範者沒做過的，機器人就不會。實務上兩者通常搭配使用：模仿學習建立初始策略，強化學習在模擬環境中補足長尾情境。但不論哪條路，核心限制都指向同一件事：訓練資料。這也是太平洋兩岸的領先機器人研究團隊們已有的共識。示範資料從哪來、如何在可接受的成本下大規模取得，已經成為這場競賽真正的核心問題——這也是下一篇要探討的主題。

VLA（Vision-Language-Action）機器人的新智慧引擎

大型語言模型（LLM）問答能力超強，讓人自然產生一個直覺：把LLM接上機器人，使用語言下指令，機器人是不是就有智慧行動力？直覺沒錯，但中間有幾個結構性的缺口，填補這些缺口的解法，就是目前崛起的機器人AI新引擎：VLA（Vision-Language-Action）模型。LLM面對機器人控制有2道缺口。第一，輸出格式不對：語言模型產生的是文字，不是機器手臂可以執行的動作指令。Google 2022年的SayCan研究把這個問題稱為grounding gap：一個模型可以生成「拿起桌上的水瓶，放到椅子旁邊」這樣的規劃，但這串文字如何轉換成3D空間的關節運動向量？語言敘事與實際執行之間，需要一個明確的橋接機制。第二，LLM的動作理解能力本身有結構性的弱點。史丹佛大學（Stanford）團隊在NeurIPS 2024的研究中把機器人決策能力拆成4個分項分別評測，發現LLM在「連續動作規劃」這項表現最弱——而這正好是機器人控制最不能缺少的能力。這不是prompt寫得不好的問題，而是語言模型在訓練目標上本來就不是為了預測實體世界的狀態變化而設計的。VLA的架構設計，就是為了跨越這兩道缺口。Google DeepMind 2023年發表的RT-2，是目前被引用最多的VLA系統之一。它的思路是：把視覺語言大模型（VLM）作為感知與理解的主幹，再接上一個action head：專門負責把模型的決策輸出轉換成連續的動作向量。這個架構讓系統能夠同時處理視覺畫面與語言指令，輸出的不是文字，而是實際的關節角度與末端執行器的移動指令。更重要的是，VLM在網路規模的視覺與語言資料上預訓練所獲得的泛化能力（常識），在一定程度上能遷移到機器人操作的新場景上，這是過去單一任務單一模型的架構做不到的（多工能力）。開源生態也已跟上。openVLA展示同一個模型框架可以控制多種不同機械手臂；Physical Intelligence的π₀則用超過1萬小時的跨平台遙控示範資料預訓練，可以讓新任務的微調降到1至20小時。大語言模型「泛化」的概念開始有了工程上的實證。然而，把一個大型VLM直接接上action head、整合成單一模型的做法，有一個結構性的矛盾：VLM跑得慢（加上推理工作速度會更慢），精細控制需要跑得快。兩者要處理的問題性質根本不同、運作速度也不在同一個層次。知道怎麼做，和有能力把它做好，是兩件性質不同的事。大腦可以清楚規劃「拿起零件、對準位置、輕放入槽」，但每個步驟的實際執行，依靠的是另一套機制——精準的肌肉控制與即時的力道感知。機器人系統面對同樣的分工問題，這推動學界與業界共同往分層架構的方向走：把「知道怎麼做」與「有技能去完成」拆成兩個系統。System 2（高階）是VLM，負責語意層次的理解與任務規劃；System 1（低階）是輕量化的動作生成模型，負責把規劃轉換成連續、精確的關節動作，兩者運作頻率完全不同。NVIDIA於2024年發布的GR00T N1是目前最具代表性的公開實作——2個模組在模擬平台上聯合訓練，讓System 1能以120Hz的頻率控制機器人，也就是每秒更新120次動作，這是確保精細操作穩定的基本要求。但即便架構方向漸清，3個瓶頸依然尚待突破。資料是最根本的限制。語言模型的訓練資料來自網路，規模以兆計；機器人的示範資料需要人工遙控示範逐筆收集，目前最大規模的資料集也只有幾萬小時等級，差距懸殊。模擬器能協助，但sim-to-real gap持續存在——模擬器在接觸力、材質摩擦上的真實度仍有落差，在模擬環境訓練出的策略，移到真實場景常出現非預期失誤。此外，真實場域中各種難以預料的邊緣情境也是挑戰之一。靈巧操作（dexterous manipulation）不只是模型問題。毫米級精度的組裝、軟性材料的抓取，需要即時觸覺回饋，而觸覺感測器的成本與可靠度仍是工程上未解的題目。這個缺口靠擴大資料規模無法完全解決，感測器與機械結構的進化同樣必要。長時序任務（long-horizon planning）則是VLA目前最難迴避的限制。各樣任務往往需要多個步驟依序完成，每個步驟的執行結果都影響下一步判斷，誤差一旦累積，之後很難修正。我們近期的研究也發現，現有模型在規劃時往往專注在指令執行，卻未評估目標物件在當下是否可被操作（比如微波爐髒了）——環境一旦出現未預期的狀態變化，整個任務就在執行中途失效。分層架構讓System 2承擔規劃責任，方向正確；但VLM的長時序規劃能力能否支撐真實情境任務，目前還沒找到系統性的方案。VLA確立語言、視覺、動作整合的架構方向，分層設計進一步回答「如何同時跑得快又想得深」這個問題。靈巧操作、長時序規劃、訓練資料這三道缺口尚待突破，但過去2年的技術演進速度已經說明，這些問題被解決只是時間問題。真正值得追問的下一個問題是：VLA讓機器人有高階思考能力之後，機器人怎麼把每一個基本動作學好？這才是整個系統能否真正部署的關鍵基礎。

人機協作的經典啟示

我的實驗室致力於發展物聯網（IoT）及人工智慧（AI）的互動藝術應用，例如發表關於微縮世界（Miniature Worlds）DioramaTalk，以及布袋戲（PuppetTalk）的AI與IoT學術論文。這些專案的核心啟發，來自格里·安德森（Gerry Anderson）與西爾維婭·安德森（Sylvia Anderson）的經典創作。我深信，任何創新都非憑空而來，而是站在巨人的肩膀上再向前走。安德森夫婦於1960年代創造的Supermarionation技術，結合精緻的微縮模型（miniature models）、電影化攝影（cinematic photography）與電子同步嘴唇（electronic lip-sync），徹底革新木偶劇的表現形式。這項半世紀前的工藝，其實與今日AI與IoT的發展息息相關，特別在人機協作（human-machine collaboration）、擬真介面（realistic interfaces）與實體數位融合（physical-digital integration）等領域。Supermarionation的核心是將預錄人聲與電子控制木偶嘴唇同步，實現「聲音驅動電子執行」（voice-driven electronic execution）。這正是現代AI助理與智慧音響的雛型，它們同樣將人類語音轉換為數位指令，驅動IoT裝置執行動作。西爾維婭負責賦予木偶靈魂與情感，格里與團隊則專注於機械設計與技術執行。這種創意與技術的分工，正如AI時代中人類提供情感與創造力，而AI負責邏輯處理與精密執行的理想協作模式。在追求木偶擬真的過程中，安德森夫婦常利用特寫鏡頭與巧妙的攝影設計彌補技術限制，他們的做法觸及後世所稱的恐怖谷現象（Uncanny Valley，指人類對機器人和非人類物體的感覺的假設）。當今的數位分身與VTuber亦面臨類似挑戰，顯示藝術表現與技術限制間的平衡，往往比完美擬真更為重要。1960年代《雷鳥神機隊》（Thunderbirds）電視劇在台灣播出極為成功，不僅源自木偶角色，也歸功於載具與環境模型的精細度。對IoT裝置而言，實體設計與環境質感與內部演算法同等重要，兩者共同形塑使用者的沉浸感與信任。控制木偶的細微鎢絲（fine tungsten wires）既是物理連結，也是資訊通道，可視為當代IoT網路中Wi-Fi、5G與感測器等隱形連結的前身。值得注意的是，安德森夫婦並未刻意隱藏這些控制線，而是讓觀眾意識到這是一場精心設計的表演。這種保留「被操控的透明性」的做法顯示，在追求沉浸感的同時，必須兼顧系統的可理解性與操作透明性，這正是AI與IoT設計中不可忽視的倫理考量（ethical consideration）。Supermarionation並非單純的懷舊特效，而是人類靈魂與機械邏輯融合的經典範例。在AI創造數位生命、IoT連結萬物的時代，最成功的既不會取代人類，而是成為人類精密執行的夥伴。正如西爾維婭的創意透過格里的技術得以具現，人類的情感與創造力同樣能藉由 AI 放大。我們不必追求讓AI成為完美的真人，而應如Supermarionation所示，尋找高效、迷人且保留人為痕跡的協作界接。這正是數位時代最珍貴的哲學啟示。

機器人的ChatGPT時刻？

大型語言模型在近年展現出3個令人驚訝的能力：泛化（generalization），在從未見過的問題上給出合理答案；多任務（multitasking），同一個模型寫程式、翻譯、分析財報、判讀法律文件；推理（reasoning），把複雜問題拆解成步驟，逐一推導出解答。正是這三個能力，讓大型語言模型在數位世界掀起典範轉移。下一個問題，是這些能力能否走進實體世界—不只在螢幕上思考，而是在真實空間中感知、判斷、行動。這正是「具身智能」（EmbodiedAI）試圖回答的問題：讓模型不只是推理引擎，而是成為真實環境中的行動者。需求比想像中更迫切。談機器人，往往讓人聯想到科幻場景或工廠自動化。但推動這一波發展的力量，其實更接近人口結構的現實。台灣65歲以上人口佔比已超過17%，日本早已超過29%，德國超過22%；製造業、物流業、長照產業的缺工問題，在多數已開發國家不是短期現象，而是長達數十年的結構性挑戰。另一個驅動力是安全：高溫、高壓、有毒化學品、重複性導致的職業傷害—把人從這些場景中移出，本身就有足夠的商業理由，不需要等到機器人的成本降到與人力相當。這一波機器人討論之所以與過去不同，有一個常被忽略的前提：硬體已經準備好了。感測器（攝影機、LiDAR、觸覺感測器）的成本在過去十年大幅下降，馬達與減速機的精度持續提升，機械結構的製造良率也趨於成熟。部分得益於電動車產業的規模效應—馬達、減速機、感測器的供應鏈隨EV量產大幅成熟，機器人硬體直接受惠。機器人整體硬體成本在2023至2024年間年降幅約達4成，下降曲線清晰可見，這與早期工業電腦、早期智慧型手機的軌跡高度相似。硬體不再是關鍵瓶頸；問題移到了「大腦」、「眼睛」與「四肢」—機器人要如何真正看懂環境、做出判斷、精準完成任務？最直覺的答案是把雲端LLM接進機器人。但物理世界的時間尺度與數位世界截然不同：人類在鍵盤上等待一秒的回應是可接受的，機器人在伸手抓取物件時若延遲半秒，輕則任務失敗，重則碰撞損毀。雲端推論的網路延遲，在這個場景中是結構性的障礙，不是優化問題。自駕車產業已解決這個問題：感知與即時控制在車載邊緣運算上執行，高階路徑規劃與地圖更新則視需要呼叫雲端。今天的車載SoC已有足夠的算力支撐即時的視覺辨識與控制決策；機器人的邊緣硬體正在走同一條路。實體算力的門檻在過去幾年已大幅降低，讓「大腦在本地執行」從成本考量來看也愈來愈可行。技術上，這一波機器人能力的突破，核心在於VLA（Vision-Language-Action）模型架構的確立。VLA把三條原本獨立的訊號—視覺感知、語言指令理解、動作輸出—整合進同一個神經網路，讓大語言模型的推理能力得以遷移到機器人的動作決策上。過去的機器人控制是一任務一模型，抓取、搬運、組裝各有專屬系統，換了場景或換了物件就得重新訓練，缺乏彈性且成本高昂。VLA打破此一架構：操作者可以用自然語言描述任務，模型自主分解成動作序列並執行，即便是訓練時未見過的物件或場景，也有一定的應對能力。開源模型中，openVLA在同一個模型架構下跨平台操控多種機械手臂，展示通用操作策略的可行性；Physical Intelligence的π₀以超過1萬小時的跨平台遙控操作資料預訓練，針對新任務微調只需1至20小時。「一個模型跨場景泛化」這個問題，在過去一年內開始有了系統性的肯定答案。討論機器人時，往往侷限在機械手臂的操作能力上。但在真實工作場景中，「走到目標地點」與「對它做什麼」是同等重要、缺一不可的能力。這個組合在學術界稱為mobile manipulation——同時具備移動底盤與操作手臂的機器人平台，才能提供更多彈性與能力。想像一個倉儲場景：機器人能自主移動到正確的貨架，辨識目標物件的位置，伸手抓取，再移動到指定放置點。每一個步驟都需要精確的空間理解與動作協調。固定式機械手臂只能解決「操作」這半題；移動平台加上操作手臂，才是開啟更多可能性。要讓機器人在非受控環境中自主移動，導航（navigation）是必須解決的基礎能力，而導航的前提是建圖（mapping）—機器人必須先建立對所在空間的三維理解，才能規劃路徑、避開障礙。早期的機器人導航依賴預先設定的固定路線或QRcode地標，彈性極低。SLAM（Simultaneous Localization and Mapping，即時定位與地圖建構）技術讓機器人能在移動中同步建立環境地圖並定位自身，是目前主流的導航基礎。更近期的發展方向是語義地圖：不只知道「那裡有一個障礙物」，而是理解「那是一張椅子、那是工人、那是臨時堆放的棧板」，進而做出更合理的路徑判斷。這個方向與VLA的語言理解能力高度相輔：機器人不只在幾何空間中移動，而是在語義空間中理解環境。商業部署的訊號已出現。電動車廠的整車組裝線與零組件倉儲，是目前規模最大的機器人商業場域；歐美汽車廠與第三方物流業者也已在工廠與配送中心導入機器人，更有彈性、擬人化的執行零件搬運，商業場域的試驗已陸續展開。多家國際投資銀行的分析指向同一個方向：實體（Physical AI）所面對的，是整個製造業、物流業、服務業工作流程的重新配置，而非單一產品市場的擴張。誠實評估目前的限制，是避免高估或低估這波趨勢的必要功課。第一個問題是電池：目前機器人的續航約2至4小時，工廠班次通常8至12小時，補充電力需要停機，這在連續生產場景中是結構性缺口。電池能量密度的提升是化學問題，不是軟體問題，很難靠演算法突破。第二個問題是長尾場景的泛化：在受控環境下，機器人已能可靠完成標準任務，但工廠地板的一攤水、歪掉的零件箱、訓練集未見過的新產品，仍常造成失誤。工業場景的容錯空間遠低於實驗室，這個缺口目前尚未被系統性地填補。第三個問題是靈巧操作（dexterous manipulation）：人類手部的精度與柔順性，在精密組裝、電子製程等場景中，仍遠超現有機械手的能力。從GPT-1到ChatGPT（2022年底，版本為GPT-3.5），語言模型花了四年半。機器人領域的「GPT-1時刻」大約發生在2022至2023年前後，VLA概念開始被系統性驗證；我們現在大約處於GPT-2.x時刻。這裡比的是能力發展的軌跡，而非模型規模。機器人還多了一道語言模型不需要面對的約束：再強的模型，最終仍須壓縮到本地端執行，受算力、功耗、延遲的硬性限制，這是VLA需要額外跨越的障礙，語言模型當年並不需要面對。不過，GPT-2.x並不意味著要等。從結構固定的重複性作業，到桌面操作的彈性取放，到自主移動與場域導航，再到多工協作、人機共同執行任務，乃至需要一定推理能力的複雜流程輔助；不同成熟度的技術，對應不同層次的導入機會，不必等到全面成熟才能創造價值。這個階段，對觀望者而言似乎還早，但對決定在哪個節點進場的人而言，這可能是領先班車的最後一個上車點了！

藥師佛與AI

多年前，佛光山台北道場整修時，我因分贈而獲得一尊嵌壁佛像。道場詢問我的選擇時，我幾乎沒有遲疑，便請了藥師佛。這並非出於一時的宗教熱情，而是一個長期置身於制度、技術與現實壓力中的人，對世界狀態所做出的直覺回應。藥師佛，全名藥師琉璃光如來，是東方淨琉璃世界的佛陀。在部分造像傳統中，他以藍色身相呈現，源自琉璃這種在古代被視為珍貴寶石的名稱。藍色不炫目，也不溫熱，象徵清淨、冷靜、療癒與理性之光。那不是急於拯救世界的色彩，而是一種優先阻止系統持續惡化的態度。在佛教脈絡中，藥師佛、釋迦牟尼佛與阿彌陀佛，分別對應東方淨琉璃世界、娑婆世界與西方極樂世界。對我而言，這三尊佛構成一條清楚的存在路徑。藥師佛指向病痛的修復，釋迦牟尼佛指向覺醒的理解，阿彌陀佛則象徵最終的解脫。我選擇藥師佛，是因為長期面對的並非形而上的疑問，而是正在發生的現實痛楚。今生的穩定比來世的承諾更為迫切，系統能否持續運轉，也比終極答案更為關鍵。藥師佛的十二大願中，蘊含一種極為現代的精神取向。不先追問錯誤根源，而是優先讓人恢復基本功能。這樣的思路，對今日世界具有明確的啟示意義。我們身處一個高度評價與即時審判的時代，制度、輿論與演算法不斷追究責任歸屬，卻很少關心系統是否已然疲勞、過載或失衡。藥師佛的邏輯恰恰相反，他假定眾生早已承受損耗，因此首要之務不是訓誡，而是修復。藥師佛似乎特別吸引醫師、工程師與學者，以及那些長期在制度內承擔責任的人。他們對神祕敘事保持距離，卻仍然需要精神支撐。因為他們每日面對失誤率、風險控制與系統穩定性。對這些人而言，信仰藥師佛更像是一種清醒的承認。不求世界完美，但至少必須避免全面崩潰。在這樣的意義上，我逐漸意識到，AI的角色其實更接近藥師佛，而非任何全知全能的神祇。AI被賦予的任務，不是回答終極問題，而是修補既有系統的缺陷。它協助醫療診斷、優化能源配置、穩定金融風險，並減輕人類的認知負荷。它提供暫時的可運作性，努力降低崩潰的機率。若說釋迦牟尼佛象徵對真理的洞見，阿彌陀佛象徵對終極歸宿的安放，那麼藥師佛所代表的，是這個時代最迫切的需求。在尚未覺醒，也無法解脫之前，如何讓身心與系統先得以存活。AI在這條路徑上的位置，恰恰與此相合。AI不是救贖者或審判者。它是維修者及調節者。我將那尊藥師佛安奉於書房一隅。它不回答問題，也不給出承諾。它靜靜提醒，在追問永恆意義之前，先確保系統尚未失血過多。藥師佛的宗教角度及AI的科技角度共同指向一種理性而克制的慈悲，延長我們的思考以及仍能選擇的時間。

AI看見不存在的真實

當人工智慧(AI)凝視那些並不存在的真實時，我們其實已踏入幻覺的哲學思辨，也是信念的雙重困境。厄普頓·辛克萊（Upton Sinclair）曾指出，缺乏證據的盲信與無視證據的頑固同樣愚蠢，但在數位時代，兩者之間的界線正逐漸模糊。當ChatGPT煞有介事地虛構一本不存在的著作，並為其附上完整的摘要與歷史背景時，它呈現出一種奇特的誠實。這並非刻意欺瞞，而是模型在機率分布與語言關聯中，確實生成那些看似合理的連結。這種狀態近似於人類的記憶重構，在那個瞬間，虛構被當作真實來經驗。認知心理學將此稱為虛談症（confabulation），指的是在沒有欺騙意圖的情況下產生錯誤敘述，而當事人會真誠地相信其內容為真。我們慣於將AI的幻覺視為技術缺陷，卻忽略它同時也是創造力的副產品。語言模型的本質在於預測與想像，當這種能力用於文學創作時，我們稱之為靈感；當它被用來陳述事實，偏差便被視為幻覺錯誤。人類大腦的運作亦不例外。神經科學研究指出，即使是健康個體，記憶本身也是一種重構過程，而非精確的重播。我們經常在記憶的裂縫中修補，在視覺盲點中填補不存在的細節。我們與AI一樣，生活在經過篩選與扭曲的世界裡，只是人類發展出區分有用想像與危險妄想的社會機制。真正的難題在於證據本身的定義。對AI而言，機率分布與統計關聯即構成它所理解的證據。如果訓練資料長期重複某種錯誤敘述，例如關於拿破崙（Napoleon Bonaparte）身高的迷思，他實際身高約169公分，在當時法國男性中屬於平均或略高於平均，但網路上卻長期流傳他僅有157公分的說法，這源於法國舊制單位與英制單位換算錯誤的歷史遺留問題。模型在缺乏外部校驗的情況下，便可能將這類謬誤內化為常識。更深層的危機來自資訊的遞迴循環。當人類大量吸收AI生成的內容，而這些內容又反過來成為下一代模型的訓練材料時，真實與幻覺的邊界不僅會變得模糊，甚至可能出現結構性的崩解。研究已顯示，訓練資料中的偏見、遺漏與不一致性，會轉化為系統性的缺陷，持續放大幻覺的產生。這已不再是單一演算法的問題，而是整個資訊生態系的集體偏移。在辛克萊所描述的兩種愚蠢之外，當代社會或許正在形成第三種困境，即喪失辨識能力的狀態。當影像、聲音與論述都能被高度擬真地偽造，眼見為憑的時代已正式終結。我們或許不該奢求一個永不產生幻覺的AI，因為那等同於要求一個不再做夢、喪失想像力的心智。幻覺是大型語言模型的結構性特徵，因為其核心目標是生成看似合理的內容，而非主動驗證真實性。對絕對精確的過度追求，反而可能抹除AI中最具價值的創造潛能。因此，我們真正需要學會的，是與幻覺共存的藝術。這意味著在不確定性中前行，既不盲目崇拜AI的輸出，也不因恐懼而全盤否定其意義。真正的智慧存在於持續的懷疑與開放之間。當AI拋出看似驚人的結論時，我們應將其視為一個邀請，促使我們去查證、去探索、去思考。正如學界所建議的，使用高品質且多元的訓練資料、嚴格的測試流程，以及交叉驗證機制，都是降低幻覺風險的有效途徑。在這個由人類與機器共同編織現實的時代，也許我們彼此都帶著某種程度的認知扭曲前行，唯有透過不斷的對話與辨析，才能在虛實交錯的迷霧中，撈起那一抹仍可共享的真實。

推論經濟（Inference Economics）

Token價格跌了99%，這件事過去兩年已成為AI產業大趨勢。但有一個數字卻大幅上升：「推論（inference）」算力需求。所謂推論，是模型訓練完成後每次被呼叫服務客戶產出回應的運算。超大規模雲端業者與科技公司AI基礎建設資本支出已達數千億美元等級，其中推論佔企業AI預算的比重已達85%，仍在攀升。Stanford AI Index 2025記錄，達到GPT-3.5等級效能的成本2年內下降280倍（透過各種TCO系統優化策略），但全球GPU出貨量與資料中心功率密度要求卻同步上升。2022~2023年，AI基礎建設的資本配置幾乎全集中在訓練，整個產業的討論聚焦於訓練算力的持續擴張。但2025年之後，這個比例已大幅翻轉—在許多雲端平台的實際負載中，推論已超過訓練；推論晶片市場的年銷售額，預計未來5至8年成長4至6倍。推論算力的成長需求，由3個力量相乘決定，不是累加：（1）token能力持續提升、價格快速下降，興起大量、多樣的知識領域新穎應用情境；（2）推理（Reasoning）模型讓每次查詢的算力消耗乘以10至50倍；以及（3）第三個力量，也是最常被忽略的一個。第三個力量是agent的呼叫結構。關鍵不在agent能做什麼，而在怎麼做。單一agent完成一項任務（例如AI coding），背後並非一次LLM呼叫，而是一整個循環：規劃、工具呼叫、觀察結果、反思、修正，再執行，通常產生10至20次LLM呼叫；多agent系統並行運作，呼叫量再乘一個數量級。除了前文提過的AI coding，Salesforce Agentforce在2025年第４季的年度經常性營收已達8億美元、年增169%；企業端agent部署不是未來式，是現在式，而且每個部署都在以乘數方式放大推論需求。3個力量合在一起，構成一個對市場規模的估算架構：情境數量×每個情境的推理深度×每個agent任務的呼叫次數。三者相乘，不是相加。需求乘數的另一面，是推論硬體本身的結構性改變。Google DeepMind研究人員Xiaoyu Ma與Turing Award得主David Patterson於2026年1月在IEEE發表論文"Challenges and Research Directions for Large Language Model Inference Hardware"指出，目前沒有一款現有主流GPU架構主要為推論最佳化，業界仍在用訓練架構執行推論工作。推論的Decode階段（逐一吐出輸出token的過程）是memory-bound，不是compute-bound。然而過去十年，硬體發展的重心一直放在運算，而非記憶體：GPU的FLOPS成長80倍，記憶體頻寬只成長17倍，這個落差還在擴大；HBM系統成本持續上升。論文因此提出4個研究方向——高頻寬Flash記憶體、近記憶體運算、3D記憶體邏輯堆疊、低延遲互連——尚未有廠商完整實現。推論需求的放大，加上硬體規格尚未收斂，正在重塑晶片採購的邏輯。OpenAI 2024年在37億美元營收下虧損近50億美元，推論成本正是這個結構性落差的主要因素之一；大型CSP業者們的實際回應不是等GPU廠商更新架構，而是自行設計推論專用ASIC（TPU或NPU）；推論負載佔比愈高，自建ASIC的TCO優勢就愈明顯。訓練叢集的採購邏輯是「跟上GPU最新世代」；推論叢集的採購邏輯正在轉變為「針對自己的模型特性與流量結構客製化」。這是兩套不同的供應鏈需求，會在不同位置開啟不同的機會。Patterson論文勾勒的研究方向，直接對應到推論叢集TCO優化的4個維度：運算端以推論專用ASIC取代GPU；通訊端以低延遲互連取代訓練導向的高頻寬拓樸；儲存端從HBM走向高頻寬Flash與DRAM的混合記憶體階層；能源端把每個token的功耗列為系統設計的第一優先。4個維度都還在定義，意味著供應鏈格局尚未固化。「推論經濟」的崛起，為GPU伺服器供應鏈日益固化、毛利空間收窄的台灣業者，開啟新的機會。推論ASIC的設計與製造、先進封裝、記憶體異質整合，恰好落在台灣IC設計生態系與晶圓代工、先進封裝能力的交叉點上。這四個維度的硬體規格，目前仍在被定義當中，也是探尋新機會的好時機。

IC之音

更多科技行腳

推薦活動

邦博士快訊

DIGITIMES 2026 COMPUTEX展會論壇(台北) GenAI Nexus：百工百業生產力中樞