文本影像自動生成白熱化 迪威智能專攻AI聲學辨識 智慧應用 影音
東捷資訊
hotspot

文本影像自動生成白熱化 迪威智能專攻AI聲學辨識

  • 廖家宜台北

迪威智能專攻AI聲學辨識商機。圖為迪威智能技術長葉子雋(左)於DIGITIMES「AI EXPO」向觀展者介紹產品與技術。廖家宜攝
迪威智能專攻AI聲學辨識商機。圖為迪威智能技術長葉子雋(左)於DIGITIMES「AI EXPO」向觀展者介紹產品與技術。廖家宜攝

先文字、再語音,隨著OpenAI釋出語音轉文字的Whisper API,預期後續跟語音辨識有關的商機可期。專攻人工智慧(AI)聲學辨識的迪威智能表示,相較影像辨識市場的競爭白熱化,其更看好聲學辨識相對具有尚未飽和的發展潛力。

目前迪威推出的音訊智能平台,主要是以AI技術協助處理音檔內容,推出包括分離、偵測、轉譯、驗證、評分等功能,協助各類型產業進行聲音辨識,目前已實際應用於音樂、會議、工業或教育等場景。迪威智能在上週DIGITIMES所主辦的「AI EXPO」中亦有參與展出,因而獲得多方關注。

迪威智能是由研發聲學辨識技術超過20年經驗的台大資工所教授張智星領軍,並於2019年自實驗室獨立出來的新創公司。迪威智能技術長葉子雋表示,迪威智能的核心技術是利用AI技術去除、分割影像或聲音中的人聲與噪聲。

其與傳統降噪技術差別在於,傳統降噪技術通常是透過濾波器來處理音訊,去除固定頻率的噪音,但其無法處理非固定噪音,而且需手動設定參數,效果有限。

相較傳統降噪技術,採用AI方法的智慧降噪技術則可以更精確的分析音訊,例如更精確的辨識噪聲類型,例如風聲或水聲等,並使用專門降噪技術進行處理,而得到更清晰與乾淨的音頻效果。

葉子雋進一步表示,相較目前市場競爭白熱化的影像辨識技術是在傳統2D平面下去辨識人或物件,聲學辨識則是在3D空間中進行多維度辨識,需要從重疊的空間中解構不同聲音,因此技術門檻相對較高,此也形成聲學辨識市場尚未飽和,也未被滿足的利基點。

目前迪威智能已推出兩大產品線,包括主攻AI智能降噪的「Noise Eraser」,可針對內容創作者降低音效處理的技術門檻和成本,瞄準愈來愈蓬勃發展的YouTuber以及Podcast市場;而另一產品則是透過AI技術分割人聲與音樂的「SOVIA」,該技術也透過API串接,實際導入到中國網易雲音樂平台。

目前迪威智能雖主攻消費性市場為多,然同時也認為智慧製造市場具有相當大的發展潛力。葉子雋觀察,部分工廠內有很多老舊機台,無法外掛振動感測器,這時即可透過訓練AI聲學,辨識工廠裡生產線上不正常的聲音,及早發現機械運作異常。

另一方面則是可用來判斷像是電視、音響、NB等會發出聲音的產品,在出廠前進行聲音品質檢測。

葉士雋認為,聲學辨識之於製造業是另一項新的應用,一方面除提升稼動率,也可避免聽覺職業傷害。

迪威智能於2021年首先獲得由驊訊文創科技與國發基金的天使輪注資新台幣1,400萬元。未來盼將針對不同市場端建構多元化商業模式因應,像是在消費性市場多角化經營,開發如影像編輯等應用程式(App)的套裝軟體。另外針對商業市場端則基於SaaS模式,以提供API或授權方式加值企業產品。

據悉,驊訊文創科技為驊訊集團100%投資企業,主要發展科技文創及多媒體娛樂事業,其也是華研國際音樂單一最大法人股東,而華研國際音樂旗下有多位台灣知名歌手,包括S.H.E、林宥嘉以及動力火車等。受到大廠青睞,此也不難看出,迪威智能在AI音訊演算的技術與經驗確實已逐漸在市場收效。

此外,葉子雋也表示,ChatGPT背後引發大語言模型熱潮,但相較文本處理,目前市場對於聲音的大模型則較少著墨,並無如影像或文字發展成熟,甚至缺少相關資料庫(database),因此迪威智能的目標之一,也盼利用其在聲學辨識獨有的技術能力與累積的音訊資料庫,能夠為大模型有所貢獻。


責任編輯:毛履兆


關鍵字