辨識語音和影像模態 讓對話機器人得以察言觀色 智慧應用 影音
Digi-Key
touch

辨識語音和影像模態 讓對話機器人得以察言觀色

中央大學資訊工程學系教授蔡宗翰。
中央大學資訊工程學系教授蔡宗翰。

擅於吟詩作對、素有「AI 界李白」稱譽的NTU IoX中心專案主持人中央大學資訊工程學系教授蔡宗翰,發表的研究主題為「多模態對話機器人」,象徵此對話機器人不只理解語言、文字,還能觀察人的動作與表情,既可察言又能觀色,足以克服當今AI對話理解系統「無法精準掌握用戶意圖與情緒」之罩門。

蔡宗翰表示,綜觀多模態對話機器人架構,首先透過多模態資訊整合模組,融合接收到的多種資訊,再透過對話管理模組決定回應方式。但回應方式包含多種模態,必須將資訊裂解至多種模態分別輸出。例如可用的模態包含了文字或語音回應、選項回應、影像回應、表情回應、實體動作回應等等。

蔡宗翰以Meccanoid 2.0機器人組裝為情境,闡述如何訓練多模態對話機器人擔任新手的助教。Meccanoid 2.0有頭、身體、腳等不同部件,其間需靠螺絲鎖定,但假使某一步驟的方向錯誤,後面就鎖不起;於是蔡宗翰請人實際組裝,收集他們在組裝過程中的提問,但最終僅收到幾十個問題,無法滿足機器學習訓練要求。

蔡宗翰決定分開處理語言、影像兩個模態。針對語言,藉由世界最大的Amazon Mechanical Turk群眾外包平台募集180人,請他們就原來的幾十個問題變換問法,產生3,800個問題;影像部份採取「資料增補」概念,利用人們將特定部件轉來轉去的影像模態,巧妙地充實訓練資料。

建立語言與影像模態的目的,即是製作「多模態意圖分類器」。當有人提出「螺絲該怎麼鎖」問句,便可利用現今最強大的BERT模型辨識其語意;儘管前述問句並未指明究竟是Meccanoid 2.0哪個部位的螺釘,但可透過使用者發問時的影像,經由Yolo-V3神經網路產生物件辨識結果,就能了解他是在組裝哪個部位的過程卡關,如此對話機器人便能給予準確的指導與協助。