智慧應用 影音
DForum0522
DForum0515

腦機界面以及語音合成

目前的腦機界面是維持經由生物演化所賦予的感覺及動作,再經由這些傳統的腦機介面與機器溝通。BEA Systems

腦機界面(Brain Machine Interface;BMI)開發迄今有15年了,最近有令人興奮的進展:將神經活動解譯成語音。這是基礎科研以及醫療界的攜手進展,而下一步—或長或短—或將要連動電子業了。

BMI從開始研發至今,應用都集中於對因神經系統或官能損害的疾病,而想辦法由病人腦中直接與外在的義肢(prosthetic)取得聯繫。與大腦的溝通方向有兩個:寫入與讀出。前者已有較大的進展,以電剌激向神經細胞傳遞訊息,在臨床醫療上也開始應用,像耳蝸假肢(cochlear prosthesis)傳遞訊息給聽覺神經使聾人也能聽到,巴金森氏症也可以用電信號剌激位於腦部深處的基底神經節(basal ganglia)來治療改善。

但是讀出大腦的訊號大不易。傳統上有兩個方式:腦電圖(ElectroEncephaloGraphy;EEG)和功能磁共振成像(functional Magnetic Resonance Imaging;fMRI)。前者量測了大約1cm2腦細胞的平均活動,基本上是巨量腦細胞的集體行為;後者是間接的測量,監測腦中一特定活動功能區的血流量增幅,能測量的面積較EEG小,但是解析度仍然不夠好。而且血流緩慢,不能反映腦活動的快速變化。

理想上的腦細胞訊號讀取應該是像電路中對每一記憶體單元逐一讀取,以現在的奈米科技這也不是完全不可及,但是目前僅有的手段是侵入性的-植入一塊4X4mm2的電極,上頭有100個探針,整片電極與探針可以記錄100~200個神經元活動。這樣侵入性的治療目前自然只能施用在志願的病患身上。

電極嵌入的地方一般在運動皮質(motor cortex),它的位置在腦皮質上方中間一橫貫左右的狹幅長條,主要功能是下達運動指令。最近取得重大進展的人工語言合成就是從腹側感覺運動皮質(ventral sensorial motor cortex,感覺皮質緊接運動皮質的後方)、顳上回(superior temporal gyrus,位於皮質之中下方,負責處理聲音如頻率、振幅等訊號)、下額回(inferior frontal gyrus,位於皮質最下方,負責語言處理,知名的布洛卡語言區就在這裡)記錄神經活動,用一組遞歸神經網路的雙向長短期記憶(bidirectional long short-term memory)解碼為發聲運動(articulatory kinetics)特徵,然後再用另一組雙向長短期記憶將發聲運動特徵解碼為聲音訊號。這樣經兩階段解碼就可以將腦部的發音表徵轉換成人工合成語音,這是腦神經科學與人工智慧協作所取得的重大成果。

另闢蹊徑而且取得重大成果的是不用運動皮質而改用後頂葉皮層(Posterior Parietal Cortex;PPC),後者的位置在運動皮質之後的一小塊,功能是產生意向(intention)。用PPC比用運動皮質有兩個好處:一是PPC可以用於身體兩側,不像運動皮質是左邊管右側身體、右邊管左側身體。二是發動一個意向比發號運動指令快的多。植在PPC上的電極現在已經能成功的讓志願病患靠意念指揮義肢,譬如用機器手臂喝啤酒。

這跟電子產業有什麼關係?當然上述電極的微小化、低功率、可撓性、無線連結等都是腦神經科學家和醫師所夢寐以求的,而且若被核可用於臨床應用將會有很大的市場,但這些意義猶小。

廣義來說,我們現在用於生活的許多週邊器具如鍵盤、滑鼠、螢幕、手寫板、麥克風、耳機等,都算是腦機界面。由於植入電極是侵入式的考慮,目前對腦機界面我們維持了經由生物演化所賦予的感覺及動作,再經由這些傳統的腦機介面與機器溝通。科學家現在想的是對每個個別神經元非侵入式的雙向溝,也許像VR樣帶個什麼器具就成。要多久呢?沒法子猜,但BMI發展迄今也不過15年而已就有如此成就,也許《星際爭霸戰》中的場景也不全然是想像,那時電子器具的變革才大。

現為DIGITIMES顧問,1988年獲物理學博士學位,任教於中央大學,後轉往科技產業發展。曾任茂德科技董事及副總、普天茂德科技總經理、康帝科技總經理等職位。曾於 Taiwan Semicon 任諮詢委員,主持黃光論壇。2001~2002 獲選為台灣半導體產業協會監事、監事長。