微軟
活動+
 

波士頓大學開發創新運算框架訓練機器人製作熱狗麵包

波士頓大學研究團隊訓練兩個機器人合作以最佳方法安全製作熱狗麵包。波士頓大學

美國波士頓大學(Boston University;BU)的研究團隊創新整合先驗知識(prior knowledge)、強化學習(reinforcement learning)、正規方法(formal method),可大幅減少機器人練習完成一項工作的次數,未來可望訓練機器人以最好、最安全的方式完成複雜、高風險的作業。

根據The Brink與BU報導,越來越多研究嘗試將強化學習運用於機器人規劃與控制,不過完全倚賴學習到的控制策略(learned control policy),卻也讓人對機器人行為的可預測性與安全性產生疑慮。此外為複雜工作正式定義獎勵也相當困難,而錯誤的獎勵也易於受到學習代理(learning agent)的不當運用。

BU研究團隊為人工智慧(AI)應用發展的運算架構(computational framework),運用機器學習(machine learning)技術訓練機器人進行複雜工作,提供先驗的特定領域知識與整合高階複雜工作規格的正式規格語言(formal specification language),能讓獎勵產生程序易於解讀,可依規格導引策略產生(policy generation)程序,並確保符合規格中的安全性要求。

機器學習中的強化學習技術就是當電腦正確完成1項工作時會獲得1個導引學習過程的獎勵,雖然完成該項工作的步驟已列在先驗知識演算法中,但並未包含如何執行這些步驟的指示。隨著機器人執行一項步驟的表現持續改善,所獲得的獎勵就越多,這樣就形成1個促使機器人持續自我精進、學習最佳執行步驟的回饋機制。

正規方法通常用於確保安全性,最明顯的應用實例包括航空電子設備(avionics)或網路安全軟體。不過強化學習與正規方法是大異其趣的技術,通常難以用數學的方式結合,並整合成機器人能理解的語言,而BU研究團隊發展的運算架構則可解決這些問題同時整合先驗知識,並透過研發與展示烹飪機器人(culinary bot)作業驗證概念的可行性。

BU工程學院教授Calin Belta、系統工程研究員Guang Yang、機械工程研究員Zachary Serlin組成的研究團隊,訓練Baxter與Jaco兩個機器人合作以最佳方法安全烹調熱狗,再將熱狗放進麵包並端給人類。研究論文"A formal methods approach to interpretable reinforcement learning for robotic planning"於2019年12月18日發表在Science Robotics期刊。

BU研究團隊發展的運算架構包括專為機器人作業訂製的謂詞時序邏輯(predicate temporal logics),以及基於控制障礙函數(control barrier function)、自動化導引且安全的強化學習演算法,未來可望應用於從乳房X光片上辨識腫瘤位置、理解語音指令以播放音樂,或是自駕(autonomous driving)等複雜、高風險、有安全考量的工作。


  •     按讚加入DIGITIMES智慧應用粉絲團
更多關鍵字報導: 機器人 協作型機器人