文本影像自動生成白熱化　迪威智能專攻AI聲學辨識

廖家宜／台北
2023-04-25
分享

迪威智能專攻AI聲學辨識商機。圖為迪威智能技術長葉子雋（左）於DIGITIMES「AI EXPO」向觀展者介紹產品與技術。廖家宜攝

先文字、再語音，隨著OpenAI釋出語音轉文字的Whisper API，預期後續跟語音辨識有關的商機可期。專攻人工智慧（AI）聲學辨識的迪威智能表示，相較影像辨識市場的競爭白熱化，其更看好聲學辨識相對具有尚未飽和的發展潛力。

目前迪威推出的音訊智能平台，主要是以AI技術協助處理音檔內容，推出包括分離、偵測、轉譯、驗證、評分等功能，協助各類型產業進行聲音辨識，目前已實際應用於音樂、會議、工業或教育等場景。迪威智能在上週DIGITIMES所主辦的「AI EXPO」中亦有參與展出，因而獲得多方關注。

迪威智能是由研發聲學辨識技術超過20年經驗的台大資工所教授張智星領軍，並於2019年自實驗室獨立出來的新創公司。迪威智能技術長葉子雋表示，迪威智能的核心技術是利用AI技術去除、分割影像或聲音中的人聲與噪聲。

其與傳統降噪技術差別在於，傳統降噪技術通常是透過濾波器來處理音訊，去除固定頻率的噪音，但其無法處理非固定噪音，而且需手動設定參數，效果有限。

相較傳統降噪技術，採用AI方法的智慧降噪技術則可以更精確的分析音訊，例如更精確的辨識噪聲類型，例如風聲或水聲等，並使用專門降噪技術進行處理，而得到更清晰與乾淨的音頻效果。

葉子雋進一步表示，相較目前市場競爭白熱化的影像辨識技術是在傳統2D平面下去辨識人或物件，聲學辨識則是在3D空間中進行多維度辨識，需要從重疊的空間中解構不同聲音，因此技術門檻相對較高，此也形成聲學辨識市場尚未飽和，也未被滿足的利基點。

目前迪威智能已推出兩大產品線，包括主攻AI智能降噪的「Noise Eraser」，可針對內容創作者降低音效處理的技術門檻和成本，瞄準愈來愈蓬勃發展的YouTuber以及Podcast市場；而另一產品則是透過AI技術分割人聲與音樂的「SOVIA」，該技術也透過API串接，實際導入到中國網易雲音樂平台。

目前迪威智能雖主攻消費性市場為多，然同時也認為智慧製造市場具有相當大的發展潛力。葉子雋觀察，部分工廠內有很多老舊機台，無法外掛振動感測器，這時即可透過訓練AI聲學，辨識工廠裡生產線上不正常的聲音，及早發現機械運作異常。

另一方面則是可用來判斷像是電視、音響、NB等會發出聲音的產品，在出廠前進行聲音品質檢測。

葉士雋認為，聲學辨識之於製造業是另一項新的應用，一方面除提升稼動率，也可避免聽覺職業傷害。

迪威智能於2021年首先獲得由驊訊文創科技與國發基金的天使輪注資新台幣1,400萬元。未來盼將針對不同市場端建構多元化商業模式因應，像是在消費性市場多角化經營，開發如影像編輯等應用程式（App）的套裝軟體。另外針對商業市場端則基於SaaS模式，以提供API或授權方式加值企業產品。

據悉，驊訊文創科技為驊訊集團100%投資企業，主要發展科技文創及多媒體娛樂事業，其也是華研國際音樂單一最大法人股東，而華研國際音樂旗下有多位台灣知名歌手，包括S.H.E、林宥嘉以及動力火車等。受到大廠青睞，此也不難看出，迪威智能在AI音訊演算的技術與經驗確實已逐漸在市場收效。

此外，葉子雋也表示，ChatGPT背後引發大語言模型熱潮，但相較文本處理，目前市場對於聲音的大模型則較少著墨，並無如影像或文字發展成熟，甚至缺少相關資料庫（database），因此迪威智能的目標之一，也盼利用其在聲學辨識獨有的技術能力與累積的音訊資料庫，能夠為大模型有所貢獻。

責任編輯：毛履兆

關鍵字

聲學 AI

加入已選取到「關鍵字追蹤」什麼是「關鍵字追蹤」

文本影像自動生成白熱化 迪威智能專攻AI聲學辨識

文本影像自動生成白熱化　迪威智能專攻AI聲學辨識