滿足人類的想像創意的語音辨識技術 智慧應用 影音
長庚大學
IC975

滿足人類的想像創意的語音辨識技術

  • DIGITIMES企畫

賽微科技(Cyberon)副總經理劉進榮。
賽微科技(Cyberon)副總經理劉進榮。

語音辨識是人類長久以來的想像創意與渴望,從阿里巴巴與四十大盜中的〝芝麻開門〞,到2001年Space Odyssey(太空漫遊)電影中,能語音溝通的HAL9000人工智慧電腦,就是語音控制應用想像力的具體表現。

賽微科技(Cyberon)副總經理劉進榮,介紹於2000年成立的賽微科技是以嵌入式系統軟體語音技術及解決方案提供者為定位,總部位於台北新店;全球超過250款、5,000萬部行動設備採用賽微語音技術,像是智能玩具IC、功能手機、智慧手機、個人導航裝置(PND)、汽車電子(Automotive)、行動服務(Mobile Service)、醫療(Medical)與家庭多媒體(Home Media)等產品。

劉進榮指出,相對於代表文明能力的文字溝通,語音則是人類獨特且與生俱來的自然溝通能力,也是思想訊息傳遞的媒介,至於判斷語音涵義的解譯器(Decoder),則位處於未知的人類心智深層結構。

語音辨識技術的演進與發展

劉進榮提到語音辨識技術的類別,可分為:特定人指令辨識、不特定人指令辨識、不特定人大量詞彙辨識、不特定人連續語音辨識,以及最複雜的自然語言處理?對話系統(理解系統)。

特定人指令辨識(Speaker-Dependent Voice Recognition)僅針對單一使用者口音做少量的詞彙指令,用戶須預先錄製語音標籤(Voice Tags),以圖徵比對(Pattern Match)的方式進行識別並執行對應動作。例如賽微語音快速撥號(Cyberon Voice Speed Dial)可應用於語音撥號與啟動AP。其優點在於無語言限制且準確率高,缺點則是使用者負擔大,支援指令數少。

不特定人指令辨識(Speaker-Independent Command-based Voice Recognition),用戶無需進行口音訓練,以機率統計方式建立通用之口音模型(Acoustic Model),並內建發音模組把文字詞句轉成發音符號;同時可動態添加文字做為辨識指令,以及支援數千筆指令辨識。

像賽微語音命令(Cyberon Voice Commander),提供人名撥號、啟動AP、聲控指令等,支援雙語辨識與支援藍牙聲控;賽微同時提供VStar SDK語音辨識套件,以彈性的指令語法架構,支援美洲語系(美語、巴西語、南美西班牙語)、亞洲語系(繁?簡中、廣東話、韓、日、印度語、泰語、越南語)、澳洲英語與歐洲語系(英、德、法、意、西、葡、俄、荷、希臘語)等31種語言。

不特定人大量詞彙辨識(Very Large Vocabulary Voice Recognition)支援支援數萬至百萬個詞彙辨識,並以樹狀架構組織辨識詞彙。像賽微隨身典語音查詢,提供超過6萬個英文及5萬個中文詞目辨識,以及提供英文單字或拼字方式查詢。

不特定人的連續語音辨識(Continuous Speech Recognition),其辨識的語音內容為多個詞彙的連續組合,一般應用在像是語音聽寫(Speech-to-Text, Dictation)和GPS導航系統景點及地址的口語輸入。

語音聽寫的應用上,透過加入語言模型(Language Model),依照前後文判斷最佳選字與文字組合。像賽微輕鬆說(輸入法),提供候選字詞、智慧學習功能、使者自訂詞彙與語音調適功能。

至於景點及地址輸入,則依據應用領域調整辨識詞彙內容,並以Domain knowledge進行後處理。賽微目前可以做到像是一段式地址輸入(如XX縣XX市XX路X段XXX號),或者用口語景點方式(例如內湖家樂福)來搜尋。

自然語言處理╱對話系統的應用

至於最複雜的自然語言處理?對話系統(理解系統),例如蘋果iPhone4S的Siri語音辨識技術,它結合了語音介面、自然語言處理系統,以及後端網路搜尋╱雲端服務供應商(Google、Wolfram Alpha)於一體。

賽微開發出VoiceGO!生活行…針對台灣地區生活資訊語音搜尋服務(Free App),用戶下載之後,可語音說出關鍵字後透過VoiceGo!上網搜尋,目前針對電影、天氣、地點、交通與更多語音辨識╱搜尋的應用。而口語辨識/對話系統,也可應用到手機的行動掛號系統、行動院內系統,以及家庭中的智慧電視的頻道選擇、音量與畫面設定等用途。

劉進榮總結,語音是人類與生俱來特有的相互溝通媒介,當語音辨識技術發展日趨成熟齊備,口語對話成為為目前趨勢;適當了解各項技術的限制並選擇適合的應用,讓語音成為安全與便捷的操作方式的人機介面的一環,同時成為產品加值的利器。