語音辨識操控成嵌入系統必備人機介面 智慧應用 影音
工研院
ST Microsite

語音辨識操控成嵌入系統必備人機介面

  • DIGITIMES企劃

語音辨識/操作便利性高,Google在其Android嵌入式系統生態系即整合語音辨識功能,使用Android系統的硬體產品可快速開發所需語音控制功能。Enblink
語音辨識/操作便利性高,Google在其Android嵌入式系統生態系即整合語音辨識功能,使用Android系統的硬體產品可快速開發所需語音控制功能。Enblink

在車用或是行動應用環境中,語音辨識、語音指令可以為使用者帶來極便捷的操作條件,因為使用者在行動中通常僅需要做到極簡單的操作目的,例如查詢通訊錄中的某筆連絡電話、翻查記事本應用程式中的某一筆記摘要,或是執行撥打電話或撰寫簡訊等操作,這類操作複雜度相對較低的使用行為,若使用者還需在觸控螢幕不斷點選、翻查再經由執行驅動相關應用,實際上並不見得能提供多好的使用體驗。

相同的操作目的下,使用者若是利用語音辨識技術下達語音指令,基本上僅須對著手機或行動裝置、車載多媒體電腦等設備,說出自己欲操作的應用程序、執行動作,嵌入式系統若在語音指令整合得宜,基本上不需要太多操作程序,用說的就能將對應操作需求執行完成,這對於在不利手持或是觸控屏幕操作的條件下,透過語音辨識執行的語音指令,只要在辨識能力與指令整合進行優化,大多可以提供使用者優於觸控操作或是滑鼠/鍵盤人機互動介面所能提供的操作便捷性。

礙於嵌入式系統運算資源相對吃緊,開發語音辨識、語音指令應用限制也較多,多半僅能以系統要求口述指令架構說出語音操作目標。Microsoft

礙於嵌入式系統運算資源相對吃緊,開發語音辨識、語音指令應用限制也較多,多半僅能以系統要求口述指令架構說出語音操作目標。Microsoft

Siri目前可以做到利用自然語言口述,進行網路影片/音樂查找,也能取代觸屏操作常用手機操作。Apple

Siri目前可以做到利用自然語言口述,進行網路影片/音樂查找,也能取代觸屏操作常用手機操作。Apple

Apple Siri語音助理 以自然語言處理勝出

先檢視不同嵌入式系統陣營的語音辨識/語音指令發展現況,以Apple來說,語音辨識技術目前以名為Siri的語音助理功能整合在iOS嵌入式應用平台中,Siri為源自學習和組織的認知助理專案(Cognitive Assistant that Learns and Organizes;CALO),CALO技術方案原先定位在拆解自然語言對話的語意分析為基礎,透過人與機器的對話進行自然語言理解,在透過大量的使用經驗與分析建構更趨完善的自然語言分析資料庫,Siri基本上是在建構一個模仿人類助理的應用服務,協助操作者透過自然對談執行對應服務或是動作。

但自然語言分析資料龐雜,並不利於在操作與運行資源相對有限的行動嵌入式應用平台中進行整合,而Apple的作法是將Siri於iOS嵌入式系統平台中的應用程序最小化,主要以驅動語音指令的辨識、軟體操作介面呈現,與執行對應語音Script程序的驅動為主,而在操作者的自然語言語意分析與對應Siri回應資料庫的擬人化設計,則透過雲端技術取用Apple的Siri服務介面,達到既能擁有豐沛的自然語言辨識與回應雲端應用,同時又可在不需大量擴增嵌入式運算環境前提下,整合語音辨識與操作應用人機互動介面。

Google提供豐富語音指令開發工具

而在Google方面,其開發針對嵌入式應用需求建構的Android系統平台,則是整合了Voice Actions應用API(Application programming interface),在Android嵌入式系統環境即備齊了語音指令解析與對應程序操作的設計條件,這對於第三方程式開發商來說,可以利用Android提供的功能進行應用整合,也能在自己發展的應用程式中追加語音控制、語音指令分析/操作使用彈性。

雖然Voice Actions本身的語音辨識能力表現不俗,但實際上在Android本身的系統或是應用程式整合方面,仍有相當大的改善空間,例如,若要在嵌入式瀏覽器中進行語音查詢網頁操作,使用者仍需觸按麥克風圖示搭配查詢關鍵字語音,而Voice Actions本身也有自己一套拆解語音指令程序的語句架構語法,與Siri強調的自然語言不同,Voice Actions需要有條理說出操作需求,嵌入式系統才能觸發對應語音操作要求。

嵌入式高效運算平台  Microsoft語音辨識資源雙管齊下

除了Apple與Google外,實際上在嵌入式應用環境發展語音辨識、語音指令的嵌入式系統平台,仍以Microsoft最早也最完整,Microsoft的語音控制應用不只在嵌入式應用平台導入,其實在個人電腦系統Windows 7之後的版本,也都有對應系統整合應用,而在嵌入式行動裝置系統對應產品方面,則在Windows Phone 7(WP7)以後的嵌入式應用平台均有對應功能搭載,而早在WP7之前,Windows嵌入式應用的語音功能,也有IBM等業者開發對應軟體開發整合工具與語音辨識引擎,提供需要在第三方應用程式開發專案中加入語音控制的整合需求。

而在嵌入式運算產品實際導入語音辨識、控制操作,其實開發難度相當高,一方面觸發語音指令的機制需要透過對應感測器或是人機互動操作進行,另一方面觸發語音指令進行拾音、分析、提取操作程序等過程,又需要大量的運算資源,這對運算效能、記憶體容量、PCB載板空間相對有限的嵌入式應用裝置來說,發展的難度相當高,設計要求並不容易達成。

嵌入式硬體性能雖提升 語音辨識啟動仍須折衷

但隨著多核心、異質多核心處理器不斷推陳出新,部分系統負載較大的應用操作,大多已可透過SoC嵌入的DSP或硬體線路進行加速運算,行動裝置本身的運算效能也已達到逼近桌上型電腦的時脈與運算效能,應付語音指令的解析、執行並不算太大的運算負擔,其間整合語音指令分析、操作的困難點,反而是在整個語音指令觸發、操作的系統設計完整度,如何透過簡單、便捷的方式觸法語音指令進行解析與操作,才是嵌入式應用系統發展語音控制的重要關鍵。

尤其在低功耗音訊技術整合方面,硬體方面的技術現況已足以應付整合需求,反而是在軟體方面的整合,才是語音指令系統的整合關鍵。雖說語音是人類最自然、輕鬆的交流/溝通方式,但在機器人機互動設計中,就必須在設計中整合必要的語音指令觸發機制,因為不能讓行動裝置無時無刻都在等待用戶的語音指令,這反而會造成系統感測器的運行功耗損失,透過必要的語音辨識觸發機制,會是最務實的設計方案。

觸發語音辨識機制 成為節省嵌入式語音辨識功耗關鍵

以Siri語音助理為例,使用者可以透過長時間押按iPhone/iPad的Home按鍵,觸發Siri語音助理功能,此時行動裝置才會開啟麥克風,並在擷取完整對話後啟動語音分析、語意提取等高效能運算解析語音命令。雖然以Siri的例子來說,啟用語音還須先按鍵才能進行,整個操作體驗是與真人互動溝通多了些額外操作,但實際上這也是為了降低嵌入式系統等待語音指令的折衷設計,此外,透過使用者主動押按Home鍵進行語音指令的對話起點,也能相對增加分析語音、提取操作語意的辨識準確度。

雖然語音指令人機互動設計,最佳化的設計架構應是操作者無間斷地侃侃而談,而電腦語音助理也能隨之互動回應,雖在軟/硬體與功能設計對現今的嵌入式平台並非難事,但實際上這種自然對話、即時分析、即時回應的設計難度在於需要極精準的語句提取、解析語意,同時又須高效能分析與提供人工智能系統回應,整個過程設備均需在高效能條件下進行,其間產生的元件運作功耗,反而會損及行動產品必須在有限的體積與電力下,維持長效運作的設計目標。