機器人訓練資料從哪裡來？

徐宏民

2026-04-24

太平洋兩岸的機器人新創與頂尖實驗室，這一年來在一件事上達成共識：模型架構不再是唯一焦點，資料成為競爭的核心資源。不論技術路線如何演變，多數團隊最終都會遇到同一個瓶頸——機器人行動「訓練資料」的規模嚴重不足。

大語言模型的成功，建立在數十兆個從網路爬取的文字資料上；機器人需要的是機器人在真實物理環境中的動作序列、感測器數值與任務標註。研究估算，目前主流機器人訓練資料集的規模，比語言模型少了3個數量級以上。

2025年底，Physical Intelligence的π₀在少量示範後的自主執行中，於數分鐘內完成疊衣任務；NVIDIA 的GR00T N1.6在同一個模型框架下可以同時操控7種不同機械手臂。這類進展的背後，架構設計看似重要，但資料規模才是關鍵。資料缺口，是機器人基礎模型能否真正大規模實際部署的天花板。

面對這個落差，學術與產業界正從4個方向同時突破資料障礙：遙控示範、模擬器、網路影片、穿戴設備。4條路線各具特色，可以互相配搭。

遙控示範（teleoperation）是目前高品質資料的主要來源。操作人員透過 VR 頭盔或主從控制臂等遠端介面操控機器人，系統同步記錄動作序列與感測器數據：資料真實，實體互動完整，動作標註精確。

openVLA的訓練基礎就是採用97萬筆這類示範資料。近來也出現更輕量的工具，史丹福大學（Stanford）團隊開發的 UMI（Universal Manipulation Interface）以手持夾爪裝置，內建魚眼鏡頭與慣性感測器，操作人員在任意場景示範即可錄製，大幅降低收集門檻。問題在於規模：每筆資料仍需人力投入，以中國各地的機器人訓練中心為例，工作人員每天重複數百次開關微波爐、疊衣服，擴張速度終究受制於人力極限。

模擬器（simulator）提供的是另一個極端：近乎無限的資料量、幾乎零邊際成本、可精確控制場景參數。從商業平台到MuJoCo、Genesis等開源工具，各樣投入都在朝高逼真物理模擬推進。但核心難題不在畫面是否逼真，而在接觸力學（contact dynamics）：兩物體碰觸瞬間的摩擦力、形變與反作用力，即使模型極度精細，轉移到真實機器人後仍常出現誤差。布料、電線、食材等柔性物體尤為困難，傳統剛體模擬難以精確處理。

面對sim-to-real gap，目前嘗試2條路線：一是「域隨機化」（domain randomization），刻意擾動光影、質感、摩擦係數，讓模型學會不依賴特定環境特徵；二是 NVIDIA 的Cosmos世界基礎模型，以大量真實影像學習物理直覺，讓神經網路本身充當更逼真的模擬器。2條路都有進展，但讓模擬器成為可靠的免費資料工廠，仍有一段距離。

網路影片是規模最大、卻最難直接使用的來源。YouTube上海量人類執行日常任務的影像，蘊含豐富的物件互動與動作語義，但影片裡看不到力道、關節角度與夾爪狀態，也沒有任何動作標註，且人手與機器人末端執行器存在根本的形態差異（embodiment gap）。Meta的Ego4D等大規模第一視角人類行為資料集，是目前這個方向最具代表性的嘗試。

跨具身學習（cross-embodiment learning）是跨越這道障礙的主要技術路線：透過匯集來自不同機器人平台與人類示範的資料聯合訓練，讓模型學到不依賴特定硬體形態的通用動作表示；我們近期的研究也證實，這是一個有效的策略。具身智慧（Physical Intelligence）最新研究進一步顯示：當跨具身預訓練規模足夠大，「人類影片遷移到機器人動作」的能力會自然出現，不需要複雜的動作轉換層，意味著網路影片的可用性比原本預期的更高。

穿戴設備（wearable devices）是最近快速發展的路線。輕量外骨骼或動作捕捉裝置讓操作人員在自然場景中活動，同步記錄全身動作與環境互動，再轉換為機器人可學習的格式。NuExo、HumanoidExo已能在戶外場景收集全上肢動作資料，場景多樣，資料自然，操作者的活動自由度也遠高於固定工作站的遙控示範。難點在於「動作轉換」（motion retargeting）：人體關節結構與機器人機械結構不完全對應，需要精密幾何映射，且轉換品質因平台而異。

綜合目前領先團隊的做法，目前正在收斂出一個「兩段式」資料架構，邏輯上與LLM的預訓練／微調高度相似。第一階段是大規模、多元的預訓練，以網路影片、合成模擬資料為基礎，讓模型建立視覺語義與通用動作直覺；第二階段是少量、高品質的微調，以遙控示範或穿戴設備錄下的真實機器人資料，將能力實際部署到特定任務與平台。

各家在這個資料策略的分歧，集中在對模擬器的信任程度。NVIDIA的GR00T N1是「重模擬」策略的代表：訓練資料呈3層金字塔，底層是網路影片與人類動作影像，中層是Isaac平台與Cosmos模型生成的合成軌跡，頂層才是真實遙控示範資料。NVIDIA曾在11小時內生成78萬條合成軌跡，相當於6,500小時人工示範；加入合成資料後，模型表現比純真實資料提升40%，是其力推模擬路線的具體依據。

相對地，許多新創——尤其是中國團隊——對sim-to-real持保留態度。在精細操作上，模擬器的接觸力學與真實世界仍有落差，與其花工程資源橋接誤差，不如直接擴大真實資料的收集規模。具身智慧的 π₀以橫跨7種機器人平台、68項任務、超過1萬小時的遙控示範資料進行跨具身預訓練，針對新任務微調僅需1至20小時。Generalist AI的GEN-0則更為徹底，完全不用模擬，以27萬小時的純真機互動資料訓練，每週持續新增逾萬小時。

這幾條路線背後有一個共同的結構：遙控示範與穿戴設備錄下的資料，目前主要扮演「微調材料」而非「訓練主體」的角色，提供的是最後那10%讓模型真正能用的能力，而非語義理解的來源。這個分工，正在促使各條路線重新定位自己的核心競爭力：

模擬器拚的是物理引擎真實度，網路影片拚的是動作標註技術，遙控示範拚的是針對特定任務的示範品質。

投資機構（如Merrill Lynch）預估2025年全球人形機器人出貨量約1.8萬台，是2024年的7倍；協作型機械手臂、自主移動機器人（AMR）等更成熟的平台部署規模更大，也都在加速整合新一代AI模型。電動車廠與第三方物流業者已在工廠與物流中心商業運轉。資料積累與部署量之間的正向循環已開始運作：部署量愈大，場域資料愈多；資料愈多，模型泛化愈強；模型愈強，部署門檻愈低。真正的競爭優勢，在於誰能以最符合成本的方式取得有效資料、在實際場域中持續迭代，進而建立起真正的資料護城河（moat）。

機器人訓練資料從哪裡來？

徐宏民國立台灣大學資訊工程學系教授

作者其他文章

推薦活動

邦博士快訊

讓AI代理為企業全面賦能 - 規劃財務轉型之路

機器人訓練資料從哪裡來？

徐宏民 國立台灣大學資訊工程學系教授

作者其他文章

推薦活動

邦博士快訊

讓AI代理為企業全面賦能 - 規劃財務轉型之路

徐宏民國立台灣大學資訊工程學系教授