Sim-to-Real:虛擬世界的侷限

徐宏民
2026-05-06
AI語音摘要
00:44

上一篇談到機器人訓練資料的4種來源:遙控示範、模擬器、影片、穿戴設備。其中模擬器看似最方便——資料生成邊際成本接近零、場景參數(天候、情境等)可以隨意調整。從MuJoCo、IsaacSim到Genesis,業界持續推進高逼真度物理引擎,NVIDIA也不斷強調世界模型Cosmos在機器人訓練上的優勢。

模擬器值得投入的理由不少。強化學習要靠大量試誤,在實體機器人上幾乎不可行;VLA基礎模型在預訓練階段也需要大量多樣場景,這兩件事前幾篇已談過。上一篇也介紹過把模擬當成資料工廠、合成大量軌跡的「重模擬」路線。模擬器更是加速應用開發的標準工具:給定機器人結構、夾爪規格、場域布局,工程師可以先在虛擬環境中迭代演算法、驗證任務規劃,不必等實機。這件事在ADAS與自駕領域已是標準做法,移動機器人與工廠自動化也在跟進。

不過模擬器訓練出的策略搬到真實機器人時,常常表現不如預期;現象一般稱為sim-to-realgap。接觸力學是第一個盲點,上一篇已點出布料、電線、食材這類柔性物體是目前物理引擎的共同難題,但另有幾個較少被提及的盲點。

第一個是力回饋與精準度。夾爪抓起一個紙杯不壓扁、擰開瓶蓋的扭矩判斷、插針孔的次毫米對位,這些動作在真實世界要靠觸覺、扭力感測與視覺迴圈一起完成;模擬器裡的感測器多半是理想模型,與真實感測器的雜訊分布並不一致。消費端夾爪看似容忍度大,但一進到電子業的組裝場域、醫療器材或食品加工,容差瞬間收斂到數十微米到幾毫牛頓的區間;即使模擬精度與真實系統相當,殘餘的sim-to-real落差仍會直接反映在成功率。

第二個是驅動端與系統端的落差。模擬器多半假設電機瞬時響應、通訊完美、狀態完全可觀測;真實系統卻有電力電子的延遲、齒輪反向間隙、電池電壓波動造成的扭矩不穩,再疊上封包遺失、時脈同步誤差、以及感測受限下的決策缺口。更關鍵的是,這些差距會隨時間漂移:機構磨損、電池老化、現場網路變動,模擬器即使再精細,也跟不上現場長期運轉的累積。

第三個是物件層級的風險。前一篇談VLA安全時已詳述情境危險性:同樣一個抓取動作,物件是刀還是湯匙、是熱飲還是冷飲,風險天差地別;這層語義層的風險,虛擬環境在幾何與動力學層面上不會主動標註,必須靠真實場域的資料補齊。

還有一層更難處理的問題——物件狀態的變動,而這些變動往往不在物理引擎的描述語言裡。微波爐是不是正在被佔用、抹布是不是髒的、平底鍋剛用過還沒洗、油是不是已經酸敗。自然語言指令通常不會把這些條件寫明,但實際執行時缺一不可。我們近期的研究就把這類「動態可操作性」(dynamic affordance)納入評估,要求代理人在動作前先判斷物件當下是否可用,而非當成固定幾何體;測試結果顯示,這個額外的判斷確實能改善代理人在新場景下的表現。

這類問題暴露一個本質限制:物理引擎模擬的是「物件怎麼動」,不是「物件現在可不可以用」。前者是物理,後者是常識。虛擬世界可以把桌面渲染到以假亂真,但「桌面髒污還是剛被擦拭過」這件事,模擬器不會主動生成,也不容易標註。真實場域的不確定性,很大比例是這類狀態變動累積而來。

傳統機器學習對訓練資料的基本要求,在VLM/LLM新典範之下並沒有放寬,大致有3個面向。

第一是視覺與場景的多樣性:模型要在不同光源、視角、雜物分布、場景配置下都能穩定運作,視覺長尾覆蓋不足,泛化能力就有限。第二是失敗模式的多樣性,這和視覺多樣性是兩件事;機器人真正要學的不是「做對一次」,而是在各種失敗邊緣能不能察覺並調整,這類分布只能刻意取得,不會自然出現。第三是領域貼合度:要讓模型學會某個場域的操作邊界,資料必須來自該場域,一個合格的物流倉、醫院藥局、餐飲廚房,都有自己獨特的動作分布與例外情境。

回到模擬器,這三件事它能補的程度不一。視覺多樣性已有相當進展,特別是場景合成與domain randomization,但接觸密集場景仍有差距。失敗模式合成則是模擬器較具獨特性的角色:不安全操作、碰撞、摔落、錯抓這類情境,在真實場景上難以大量反覆上演,模擬器可以放心重現危險操作、組合極端條件,是「安全地大量失敗」的少數可行路徑之一。至於領域貼合度,模擬器只能部分逼近,難以取代真實場域資料;這也是其他訓練資料必要的原因。

機器人產業真正需要的,或許不是更逼真的模擬器,而是讓部署現場本身成為持續訓練的資料來源。實體機器在真實場域運作時,能察覺自身錯誤、退回安全狀態,並把偏差訊號回饋到模型迭代。

這個思路在數位世界剛被走通。近期的代理型AI(Agentic AI)推理並非總是準確,但搭配驗證(verification)、錯誤偵測與再修正機制,系統在迭代中逐步收斂到可用水準。實體AI(Physical AI)有機會走上同一條路:用模擬器建立預訓練的底層,用真實場域的錯誤訊號回饋微調,把部署規模轉化為模型進化的燃料。這裡的「驗證」不只是軟體驗證,還包括獨立的安全監控層;前一篇談VLA安全時提到的執行前棄權、執行中監控,正是這個迴路的實體版本。模擬器仍是地基,但模型真正變強的地方,會在實體部署之上。

機器人部署場域的營運資料,未來幾年會逐步變成比硬體規格更關鍵的資產;誰能蒐集、清洗、回饋這些資料進模型,誰就能把「單次出貨」變成「持續累積的優勢」。

Sim-to-Real的問題,未必能靠「把模擬做得無比接近真實」徹底解決,這條路的邊際報酬看來正在遞減。比較務實的方向,或許是接受虛擬與現實之間確實存在的差異,透過場域資料微調、驗證與修正迭代逐步提高成功率。如同代理型AI在數位世界走過的路,機器人也可能藉此在實體世界站穩腳步。

現任國立台灣大學資訊工程學系教授,曾任富智捷(MobileDrive)技術長暨副總經理,推動ADAS及智慧座艙系統產品進入全球車用市場。紐約哥倫比亞大學電機博士,專精於機器學習、電腦視覺、自駕車、機器人等領域。為訊連科技研發團隊創始成員,慧景科技(thingnario)共同創辦人,NVIDIA AI Lab計畫主持人;曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會,擔任多家科技公司AI策略顧問。
智慧應用 影音