對外貿易發展協會
活動+
 

發揮自然語言處理潛力 助益保險理賠與病歷編碼任務

臺灣大學資訊工程學系暨研究所助理教授陳縕儂認為,在深度學習的自然語言處理技術發展中,瞭解醫療文獻與場域應用也相當重要。蔡騰輝攝

不同於包括JavaScript、Python、PHP等程式語言,自然語言當中包含了結構性語法(Grammar)像是文字、語音、音樂等等,而在教導電腦理解人類語言的自然語言處理(Natural Language Processing;NLP)過程中,臺灣大學資訊工程學系暨研究所助理教授陳縕儂表示,從斷詞、理解詞、分析句子、語法、語義等等結構著手,現在已具備協助保險業者快速瞭解診斷書內容與手述代碼之應用能力,另外也有望能加快醫院的病歷編碼作業。

Apple是水果還是電腦公司?  BERT助NLP準確判斷

Google 最近在Github開放了BERT模型的TensorFlow原始碼,這讓模型可以透過「整句」內容來分析進一步的語意。陳縕儂舉例,一般來說,如果系統偵測到「Apple」這個字,無法判斷是可以吃的「水果」蘋果,還是「電腦公司」的蘋果。而現在透過整句的分析,如果句子當中有出現「iPhone」,那麼系統就會傾向判斷這個「蘋果」是電腦公司。此外,在向量處理的過程當中,也會自動包含上下文的資訊,就可進一步提高正確率。

在智慧醫療的領域當中,也有不少人在研究Medical BERT的技術。比方說, 病患請領保險金時,需要醫師診斷證明,而保險業者能夠藉由病歷分析軟體系統,從診斷書的內容,就能預測手術代碼,僅而降低保險理賠人員的工作量與作業時間。另一方面,應用在醫院流程中,則是能降低ICD10病歷編碼師的工作負擔。

F1 score要高 Recall與Precision要平衡

此外,由於ICD有階層性的關係,因此在2個模型之間,可以利用相似參數,進以提升2個模型各自的準確率。

一般機器學習任務評估正確性(accuracy)方法是「全對才算是對」,所以常出現的指標反而是「F1 score」。F1 score是由Recall與Precision所組成。Recall代表的是「正確答案中,能夠抓到多少」,而Precision則代表「抓到的內容中,正確的有多少」。陳縕儂說,希望提升所謂的「正確率」,那麼Recall與Precision要權衡其重要性才可以,也就是說,儘可能不要漏掉任何一個參數或是碼,而抓到的又都要是該抓的。

NLP未來想做的題目

目前已經能在大量的醫療文獻當中,知道許多語詞之間很相似,陳縕儂未來希望能夠持續深究語詞(Term)之間的關聯、基因(Gene)之間的關聯。比方說,A基因會導致A疾病和B疾病,B基因則會導致B疾病與C疾病,那麼A基因與B基因之間就可能有交集的關聯。

此外,不同的英文字,但是可能在不同情境下意思卻是一樣,也因此未來的訓練方式將是在大量資料中,從上下文(Context)來尋找相似與向量接近的特徵。



  •     按讚加入DIGITIMES智慧醫療粉絲團
更多關鍵字報導: 電子病歷 智慧醫療