機器人訓練資料從哪裡來?

徐宏民
2026-04-24

太平洋兩岸的機器人新創與頂尖實驗室,這一年來在一件事上達成共識:模型架構不再是唯一焦點,資料成為競爭的核心資源。不論技術路線如何演變,多數團隊最終都會遇到同一個瓶頸——機器人行動「訓練資料」的規模嚴重不足。

大語言模型的成功,建立在數十兆個從網路爬取的文字資料上;機器人需要的是機器人在真實物理環境中的動作序列、感測器數值與任務標註。研究估算,目前主流機器人訓練資料集的規模,比語言模型少了3個數量級以上。

2025年底,Physical Intelligence的π₀在少量示範後的自主執行中,於數分鐘內完成疊衣任務;NVIDIA 的GR00T N1.6在同一個模型框架下可以同時操控7種不同機械手臂。這類進展的背後,架構設計看似重要,但資料規模才是關鍵。資料缺口,是機器人基礎模型能否真正大規模實際部署的天花板。

面對這個落差,學術與產業界正從4個方向同時突破資料障礙:遙控示範、模擬器、網路影片、穿戴設備。4條路線各具特色,可以互相配搭。

遙控示範(teleoperation)是目前高品質資料的主要來源。操作人員透過 VR 頭盔或主從控制臂等遠端介面操控機器人,系統同步記錄動作序列與感測器數據:資料真實,實體互動完整,動作標註精確。

openVLA的訓練基礎就是採用97萬筆這類示範資料。近來也出現更輕量的工具,史丹福大學(Stanford) 團隊開發的 UMI(Universal Manipulation Interface)以手持夾爪裝置,內建魚眼鏡頭與慣性感測器,操作人員在任意場景示範即可錄製,大幅降低收集門檻。問題在於規模:每筆資料仍需人力投入,以中國各地的機器人訓練中心為例,工作人員每天重複數百次開關微波爐、疊衣服,擴張速度終究受制於人力極限。

模擬器(simulator)提供的是另一個極端:近乎無限的資料量、幾乎零邊際成本、可精確控制場景參數。從商業平台到MuJoCo、Genesis等開源工具,各樣投入都在朝高逼真物理模擬推進。但核心難題不在畫面是否逼真,而在接觸力學(contact dynamics):兩物體碰觸瞬間的摩擦力、形變與反作用力,即使模型極度精細,轉移到真實機器人後仍常出現誤差。布料、電線、食材等柔性物體尤為困難,傳統剛體模擬難以精確處理。

面對sim-to-real gap,目前嘗試2條路線:一是「域隨機化」(domain randomization),刻意擾動光影、質感、摩擦係數,讓模型學會不依賴特定環境特徵;二是 NVIDIA 的Cosmos世界基礎模型,以大量真實影像學習物理直覺,讓神經網路本身充當更逼真的模擬器。2條路都有進展,但讓模擬器成為可靠的免費資料工廠,仍有一段距離。

網路影片是規模最大、卻最難直接使用的來源。YouTube上海量人類執行日常任務的影像,蘊含豐富的物件互動與動作語義,但影片裡看不到力道、關節角度與夾爪狀態,也沒有任何動作標註,且人手與機器人末端執行器存在根本的形態差異(embodiment gap)。Meta的Ego4D等大規模第一視角人類行為資料集,是目前這個方向最具代表性的嘗試。

跨具身學習(cross-embodiment learning)是跨越這道障礙的主要技術路線:透過匯集來自不同機器人平台與人類示範的資料聯合訓練,讓模型學到不依賴特定硬體形態的通用動作表示;我們近期的研究也證實,這是一個有效的策略。具身智慧(Physical Intelligence)最新研究進一步顯示:當跨具身預訓練規模足夠大,「人類影片遷移到機器人動作」的能力會自然出現,不需要複雜的動作轉換層,意味著網路影片的可用性比原本預期的更高。

穿戴設備(wearable devices)是最近快速發展的路線。輕量外骨骼或動作捕捉裝置讓操作人員在自然場景中活動,同步記錄全身動作與環境互動,再轉換為機器人可學習的格式。NuExo、HumanoidExo已能在戶外場景收集全上肢動作資料,場景多樣,資料自然,操作者的活動自由度也遠高於固定工作站的遙控示範。難點在於「動作轉換」(motion retargeting):人體關節結構與機器人機械結構不完全對應,需要精密幾何映射,且轉換品質因平台而異。

綜合目前領先團隊的做法,目前正在收斂出一個「兩段式」資料架構,邏輯上與LLM的預訓練/微調高度相似。第一階段是大規模、多元的預訓練,以網路影片、合成模擬資料為基礎,讓模型建立視覺語義與通用動作直覺;第二階段是少量、高品質的微調,以遙控示範或穿戴設備錄下的真實機器人資料,將能力實際部署到特定任務與平台。

各家在這個資料策略的分歧,集中在對模擬器的信任程度。NVIDIA的GR00T N1是「重模擬」策略的代表:訓練資料呈3層金字塔,底層是網路影片與人類動作影像,中層是Isaac平台與Cosmos模型生成的合成軌跡,頂層才是真實遙控示範資料。NVIDIA曾在11小時內生成78萬條合成軌跡,相當於6,500小時人工示範;加入合成資料後,模型表現比純真實資料提升40%,是其力推模擬路線的具體依據。

相對地,許多新創——尤其是中國團隊——對sim-to-real持保留態度。在精細操作上,模擬器的接觸力學與真實世界仍有落差,與其花工程資源橋接誤差,不如直接擴大真實資料的收集規模。具身智慧的 π₀以橫跨7種機器人平台、68項任務、超過1萬小時的遙控示範資料進行跨具身預訓練,針對新任務微調僅需1至20小時。Generalist AI的GEN-0則更為徹底,完全不用模擬,以27萬小時的純真機互動資料訓練,每週持續新增逾萬小時。

這幾條路線背後有一個共同的結構:遙控示範與穿戴設備錄下的資料,目前主要扮演「微調材料」而非「訓練主體」的角色,提供的是最後那10%讓模型真正能用的能力,而非語義理解的來源。這個分工,正在促使各條路線重新定位自己的核心競爭力:

模擬器拚的是物理引擎真實度,網路影片拚的是動作標註技術,遙控示範拚的是針對特定任務的示範品質。

投資機構(如Merrill Lynch)預估2025年全球人形機器人出貨量約1.8萬台,是2024年的7倍;協作型機械手臂、自主移動機器人(AMR)等更成熟的平台部署規模更大,也都在加速整合新一代AI模型。電動車廠與第三方物流業者已在工廠與物流中心商業運轉。資料積累與部署量之間的正向循環已開始運作:部署量愈大,場域資料愈多;資料愈多,模型泛化愈強;模型愈強,部署門檻愈低。真正的競爭優勢,在於誰能以最符合成本的方式取得有效資料、在實際場域中持續迭代,進而建立起真正的資料護城河(moat)。

現任國立台灣大學資訊工程學系教授,曾任富智捷(MobileDrive)技術長暨副總經理,推動ADAS及智慧座艙系統產品進入全球車用市場。紐約哥倫比亞大學電機博士,專精於機器學習、電腦視覺、自駕車、機器人等領域。為訊連科技研發團隊創始成員,慧景科技(thingnario)共同創辦人,NVIDIA AI Lab計畫主持人;曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會,擔任多家科技公司AI策略顧問。
智慧應用 影音