辨識語音和影像模態讓對話機器人得以察言觀色

台北訊
2019-12-18
分享

中央大學資訊工程學系教授蔡宗翰。

擅於吟詩作對、素有「AI 界李白」稱譽的NTU IoX中心專案主持人中央大學資訊工程學系教授蔡宗翰，發表的研究主題為「多模態對話機器人」，象徵此對話機器人不只理解語言、文字，還能觀察人的動作與表情，既可察言又能觀色，足以克服當今AI對話理解系統「無法精準掌握用戶意圖與情緒」之罩門。

蔡宗翰表示，綜觀多模態對話機器人架構，首先透過多模態資訊整合模組，融合接收到的多種資訊，再透過對話管理模組決定回應方式。但回應方式包含多種模態，必須將資訊裂解至多種模態分別輸出。例如可用的模態包含了文字或語音回應、選項回應、影像回應、表情回應、實體動作回應等等。

蔡宗翰以Meccanoid 2.0機器人組裝為情境，闡述如何訓練多模態對話機器人擔任新手的助教。Meccanoid 2.0有頭、身體、腳等不同部件，其間需靠螺絲鎖定，但假使某一步驟的方向錯誤，後面就鎖不起；於是蔡宗翰請人實際組裝，收集他們在組裝過程中的提問，但最終僅收到幾十個問題，無法滿足機器學習訓練要求。

蔡宗翰決定分開處理語言、影像兩個模態。針對語言，藉由世界最大的Amazon Mechanical Turk群眾外包平台募集180人，請他們就原來的幾十個問題變換問法，產生3,800個問題；影像部份採取「資料增補」概念，利用人們將特定部件轉來轉去的影像模態，巧妙地充實訓練資料。

建立語言與影像模態的目的，即是製作「多模態意圖分類器」。當有人提出「螺絲該怎麼鎖」問句，便可利用現今最強大的BERT模型辨識其語意；儘管前述問句並未指明究竟是Meccanoid 2.0哪個部位的螺釘，但可透過使用者發問時的影像，經由Yolo-V3神經網路產生物件辨識結果，就能了解他是在組裝哪個部位的過程卡關，如此對話機器人便能給予準確的指導與協助。

關鍵字

中央大學 AI 機器人

加入已選取到「關鍵字追蹤」什麼是「關鍵字追蹤」

辨識語音和影像模態 讓對話機器人得以察言觀色

辨識語音和影像模態讓對話機器人得以察言觀色