taitra
order
 

加速中文AI開發 科技部釋出400小時AI語音數據資料庫

科技部攜手廣播電台釋出AI語音數據資料庫。廖家宜

從Siri、Alexa到Google Home,語音對話被視為下一世代人機互動介面,自然語言對話(NLP)更成為技術發展核心。然而對AI的訓練來說,最重要的就是正確的資料,科技部近年積極推動AI發展,在強化中文AI語音發展上也攜手警察廣播電台與教育廣播電台建立AI語音數據資料庫,將釋出400小時的語音數據資料給產官學研界使用,可大幅縮短資料標註時間與人力,降低開發門檻。

科技部搭建科技大擂台激勵創新,去年舉辦首屆「與AI對話」以獎勵賽的模式鼓勵創新者運用創意與技術來解決語音AI應用的挑戰,但可惜的是在今年三月決賽中未有參賽者奪得最高獎項2,000萬元。最後冠亞軍則分別由台大電資學院團隊與華碩電腦達文西實驗室獲得。這項比賽好比中文版的多益測驗,但考生並非人類,而是由人類所訓練出來的機器人,此競賽不同於已知問題與答案的語音助理,由於無法預測考題為何,因此機器人只能憑藉AI辨識與分析題目。

儘管首屆競賽未有團隊抱走最高獎項,但科技部政務次長許有進也指出事實上舉辦競賽的目的旨不在比賽,而意在從每次競賽過程中都能推動台灣加速開發中文AI語意對話的核心技術。然而對AI的訓練來說,最重要的就是正確的資料,為此科技部也結合內政部警政署警察廣播電台,以及教育部國立教育廣播電台建立AI語音數據資料庫,並邀請台科大副教授廖元甫協助進行語音資料的標註,透過由科技部提供業界資料以加速AI的訓練。

此次釋出的AI語音數據資料庫約有400小時先在第一期公開釋出,未來將提供產學研界免費取得授權,用於AI相關技術的研發,可大幅縮短發展語音過程中所耗費的資料標註時間與人力,降低開發技術門檻。而該資料庫將在國家實驗研究院高速網路與計算中心資料集平台(NCHC DATA MARKET)上架。而科技部也表示,目前由科技部提供的數據資料庫約有2,000-3000個小時,待釐清授權後續還會有更多資料釋出。

  •     按讚加入DIGITIMES智慧應用粉絲團
更多關鍵字報導: 科技部 語音辨識 語意分析 人工智慧