Sim-to-Real：虛擬世界的侷限

徐宏民

2026-05-06

AI語音摘要

00:44

上一篇談到機器人訓練資料的4種來源：遙控示範、模擬器、影片、穿戴設備。其中模擬器看似最方便——資料生成邊際成本接近零、場景參數（天候、情境等）可以隨意調整。從MuJoCo、IsaacSim到Genesis，業界持續推進高逼真度物理引擎，NVIDIA也不斷強調世界模型Cosmos在機器人訓練上的優勢。

模擬器值得投入的理由不少。強化學習要靠大量試誤，在實體機器人上幾乎不可行；VLA基礎模型在預訓練階段也需要大量多樣場景，這兩件事前幾篇已談過。上一篇也介紹過把模擬當成資料工廠、合成大量軌跡的「重模擬」路線。模擬器更是加速應用開發的標準工具：給定機器人結構、夾爪規格、場域布局，工程師可以先在虛擬環境中迭代演算法、驗證任務規劃，不必等實機。這件事在ADAS與自駕領域已是標準做法，移動機器人與工廠自動化也在跟進。

不過模擬器訓練出的策略搬到真實機器人時，常常表現不如預期；現象一般稱為sim-to-realgap。接觸力學是第一個盲點，上一篇已點出布料、電線、食材這類柔性物體是目前物理引擎的共同難題，但另有幾個較少被提及的盲點。

第一個是力回饋與精準度。夾爪抓起一個紙杯不壓扁、擰開瓶蓋的扭矩判斷、插針孔的次毫米對位，這些動作在真實世界要靠觸覺、扭力感測與視覺迴圈一起完成；模擬器裡的感測器多半是理想模型，與真實感測器的雜訊分布並不一致。消費端夾爪看似容忍度大，但一進到電子業的組裝場域、醫療器材或食品加工，容差瞬間收斂到數十微米到幾毫牛頓的區間；即使模擬精度與真實系統相當，殘餘的sim-to-real落差仍會直接反映在成功率。

第二個是驅動端與系統端的落差。模擬器多半假設電機瞬時響應、通訊完美、狀態完全可觀測；真實系統卻有電力電子的延遲、齒輪反向間隙、電池電壓波動造成的扭矩不穩，再疊上封包遺失、時脈同步誤差、以及感測受限下的決策缺口。更關鍵的是，這些差距會隨時間漂移：機構磨損、電池老化、現場網路變動，模擬器即使再精細，也跟不上現場長期運轉的累積。

第三個是物件層級的風險。前一篇談VLA安全時已詳述情境危險性：同樣一個抓取動作，物件是刀還是湯匙、是熱飲還是冷飲，風險天差地別；這層語義層的風險，虛擬環境在幾何與動力學層面上不會主動標註，必須靠真實場域的資料補齊。

還有一層更難處理的問題——物件狀態的變動，而這些變動往往不在物理引擎的描述語言裡。微波爐是不是正在被佔用、抹布是不是髒的、平底鍋剛用過還沒洗、油是不是已經酸敗。自然語言指令通常不會把這些條件寫明，但實際執行時缺一不可。我們近期的研究就把這類「動態可操作性」（dynamic affordance）納入評估，要求代理人在動作前先判斷物件當下是否可用，而非當成固定幾何體；測試結果顯示，這個額外的判斷確實能改善代理人在新場景下的表現。

這類問題暴露一個本質限制：物理引擎模擬的是「物件怎麼動」，不是「物件現在可不可以用」。前者是物理，後者是常識。虛擬世界可以把桌面渲染到以假亂真，但「桌面髒污還是剛被擦拭過」這件事，模擬器不會主動生成，也不容易標註。真實場域的不確定性，很大比例是這類狀態變動累積而來。

傳統機器學習對訓練資料的基本要求，在VLM／LLM新典範之下並沒有放寬，大致有3個面向。

第一是視覺與場景的多樣性：模型要在不同光源、視角、雜物分布、場景配置下都能穩定運作，視覺長尾覆蓋不足，泛化能力就有限。第二是失敗模式的多樣性，這和視覺多樣性是兩件事；機器人真正要學的不是「做對一次」，而是在各種失敗邊緣能不能察覺並調整，這類分布只能刻意取得，不會自然出現。第三是領域貼合度：要讓模型學會某個場域的操作邊界，資料必須來自該場域，一個合格的物流倉、醫院藥局、餐飲廚房，都有自己獨特的動作分布與例外情境。

回到模擬器，這三件事它能補的程度不一。視覺多樣性已有相當進展，特別是場景合成與domain randomization，但接觸密集場景仍有差距。失敗模式合成則是模擬器較具獨特性的角色：不安全操作、碰撞、摔落、錯抓這類情境，在真實場景上難以大量反覆上演，模擬器可以放心重現危險操作、組合極端條件，是「安全地大量失敗」的少數可行路徑之一。至於領域貼合度，模擬器只能部分逼近，難以取代真實場域資料；這也是其他訓練資料必要的原因。

機器人產業真正需要的，或許不是更逼真的模擬器，而是讓部署現場本身成為持續訓練的資料來源。實體機器在真實場域運作時，能察覺自身錯誤、退回安全狀態，並把偏差訊號回饋到模型迭代。

這個思路在數位世界剛被走通。近期的代理型AI（Agentic AI）推理並非總是準確，但搭配驗證（verification）、錯誤偵測與再修正機制，系統在迭代中逐步收斂到可用水準。實體AI（Physical AI）有機會走上同一條路：用模擬器建立預訓練的底層，用真實場域的錯誤訊號回饋微調，把部署規模轉化為模型進化的燃料。這裡的「驗證」不只是軟體驗證，還包括獨立的安全監控層；前一篇談VLA安全時提到的執行前棄權、執行中監控，正是這個迴路的實體版本。模擬器仍是地基，但模型真正變強的地方，會在實體部署之上。

機器人部署場域的營運資料，未來幾年會逐步變成比硬體規格更關鍵的資產；誰能蒐集、清洗、回饋這些資料進模型，誰就能把「單次出貨」變成「持續累積的優勢」。

Sim-to-Real的問題，未必能靠「把模擬做得無比接近真實」徹底解決，這條路的邊際報酬看來正在遞減。比較務實的方向，或許是接受虛擬與現實之間確實存在的差異，透過場域資料微調、驗證與修正迭代逐步提高成功率。如同代理型AI在數位世界走過的路，機器人也可能藉此在實體世界站穩腳步。

Sim-to-Real：虛擬世界的侷限

徐宏民國立台灣大學資訊工程學系教授

作者其他文章

推薦活動

邦博士快訊

Auden TechDay 2026 「星地融合 ‧ 智聯萬物 ‧ 共創無限未來」

Sim-to-Real：虛擬世界的侷限

徐宏民 國立台灣大學資訊工程學系教授

作者其他文章

推薦活動

邦博士快訊

Auden TechDay 2026 「星地融合 ‧ 智聯萬物 ‧ 共創無限未來」

徐宏民國立台灣大學資訊工程學系教授