TWCC
event
 

【黃光彩專欄】健保資料庫可成為大數據的基礎:病歷用詞一致性

一體化醫學語言系統的組成內容。黃光彩

生活上,你是否有這樣的經驗,曾經覺得你和你的醫生講的語言不同?有時,即使你認為自己理解的單詞對醫生也可能具有不同的含義。舉個例子:說明心臟病發作情境,你對醫生敘述家人理解的心臟病症狀,包括心跳加速、胸痛、呼吸急促、昏倒。但事實上,你的家人是「心臟停止跳動!」。

當你與醫生交談時,你說家人是心臟病發作,倖免於難,醫生卻說:「他不是心臟病發作,而是心臟驟停;但沒有肌肉損傷。」幸運的是,緊急救護人員使用了心肺復蘇術並使他復活。醫生是什麼意思?到底是怎麼回事?對你來說,心臟病發作意味著心臟沒有跳動。對於醫生來說,心臟病發作意味著心肌受損。

另一個例子:發燒情境。你的孩子體溫為37.5度,你打電話給醫生訴說,醫生說:「那不是發燒。」她是什麼意思,到底是怎麼回事?對你來說,體溫高於37度,就是發燒,然而,對醫生來說,發燒的定義是超過38度。你和你的醫生有時會說不同的語言,卻使用相同的單詞。

用詞統一才能讓病歷資料庫發揮數據分析作用

醫生和病人家屬會有用詞上的誤解,甚至醫生跟醫生間也會有類似的誤解。醫院的病歷間也會有不一致性的問題,他們所使用的詞彙如果不一致,整合起來的病歷資料庫,就會產生很大的誤解和誤差。每年出版的生物醫學資料數量越來越龐大,每當搜尋醫學文獻、病歷資料庫時,檢索到的資訊數量都很巨大,要如何更精確,不會誤解,就成了一個大問題。

同一家醫院,不同的兩位醫師,同科或不同科別,對同一個病情的表達都可能不一樣,因此,每家醫院的病歷數據庫當中,針對同一個病情的用詞就可能不盡相同。目前各界都希望利用電腦系統、人工智慧來協助,應用與分析這些生物醫學大數據,希望能有精確與預測的技術發展,希望達到這目標,就必須要有一套共同的「知識表示和推理」(KR²,Knowledge Representation and Reasoning)的語言來表達知識,而且能夠有一致的邏輯推理,才能開發出具有理解推論能力的系統,來加強知識的交換、取得、學習。

醫學用詞統一的兩大障礙

要達到這一個目標是要克服兩大障礙的:「不同資訊來源和不同人員表達相同概念時,所採用的語言要一致或可相互理解」與「有益的資訊在許多互不相同的資料庫和系統之間的交換和傳播不會被誤解」。

知識表示和推理是人工智慧(AI)領域中的一部分,用於協助電腦系統來表達文辭和語意,可以用來解決諸如診斷醫療狀況或自然語言對話。 知識表示法結合了心理學中關於人類如何解決問題和表示知識的方法,建立一個標準形式,使復雜的系統更易於設計和構建。

知識表示和推理還結合了邏輯的運算,以達自動化各種推理,例如規則的應用或集合與子集的關係。知識表示法包括語義網(Semantic nets)、系統架構(System architecture)、框架(frames)、規則(rules)、本體(ontologies)。自動推理的引擎包括推理引擎(inference engines)、定理證明(theorem provers)、分類器(Classifier)。

一體化醫學語言系統 Unified Medical Language SystemUMLS

一體化醫學語言系統(Unified Medical Language System;UMLS),又稱為統一醫學語言系統,是對生物醫學科學領域內許多受控詞表的一部綱目式彙編。UMLS提供的是一種位於這些詞表之間的映射結構,使這些不同的術語系統之間能夠彼此轉換;同時,UMLS也被看作是生物醫學概念所構成的一部廣泛全面的敘詞表和本體。UMLS還進一步提供有若干適用於自然語言處理的工具。UMLS主要旨在供醫學信息學領域的信息系統開發人員使用。

UMLS是由美國國家醫學圖書館(National Library of Medicine;NLM)設計並負責維護,定期更新一次,且可以免費使用,是由Donald Lindberg博士於1986年發起的,他也是後來的美國國家醫學圖書館館長。

UMLS構成組件:MetathesaurusSemantic NetworkSPECIALIST Lexicon

第一:Metathesaurus

中文稱為超級敘詞表或元敘詞表,是UMLS的核心資料庫,是來自各種受控詞表的概念和術語以及它們之間的關係所構成的集合;Metathesaurus 之中收錄有100多萬個生物醫學概念和500多萬個概念名稱,而所有這些都源自UMLS所收錄的100多部受控詞表和分類系統,如ICD-9-CM、ICD-10、MeSH、SNOMED CT、LOINC、世界衛生組織藥物不良反應術語集(WHO Adverse Drug Reaction Terminology;WHO-ART)、英國臨床術語(UK Clinical Terms,又稱為Read Codes)、RxNORM、基因本體(Gene Ontology;GO)和OMIM等等。

第二:Semantic Network

中文稱為語義網路,不同於計算機科學領域所泛指的語義網路和語義網,Semantic Network是一套類別和關係,用於對Metathesaurus之中的條目加以分類和關聯;每個概念都指定有至少一種「語義類型」(Semantic type)」,也就是一種類別。目前共計有135種語義類型和54種語義關係。

主要的語義類型包括生物、解剖學結構、生物學功能、化學物質、事件、有形對象,也稱物理對象(physical objects)以及概念。語義類型之間的連結為語義網路提供了結構,顯示分組與概念之間的重要關係。語義類型之間的基本連結是「isa」連結,又可稱為類屬關係。依靠這種關係建立起來的是一種由類型構成的層級結構。

第三:SPECIALIST Lexicon

中文稱為專家辭典或專家詞典,是一個詞典信息資料庫,供自然語言處理(NLP)工作使用;其中,每個條目分別含有句法,像是如何將若干詞語組合起來,創建出某種含義;構詞法,包括形式和結構,以及正字法,如拼寫方面的訊息。一套Java程序利用該專家辭典,通過詞類(parts of speech)把單詞關聯起來,來分析生物醫學文本之中的詞彙變體。這將有助於網路搜索或者對於電子病歷的搜索。

病歷要能分析 用詞統一 還需各界共同努力

許多支持性的軟體工具。即使電腦系統也要能夠分辨同字不同義的情況。這種歧義(Ambiguity)會經常發生,例如Cold 這個詞在UMLS中有四個概念: Cold temperature (低溫)、Common cold (普通感冒)、Chronic obstructive lung disease (慢性阻塞性肺疾病)、Cold sensation (使用冷感覺)。

軟體系統要有NLP的語意分析能力。UMLS本身被用於國家醫學圖書館的PubMed和ClinicalTrials.gov臨床試驗系統。生醫領域的工作及研究人員都對這些內容不陌生。

黃光彩

安強公司董事長黃光彩,積極協助台商利用顛覆性創新與AIoT推動各產業數位轉型,同時建立全球數位總部,關注議題包括3D列印、智慧製造、大數據、智慧醫療大健康應用等。

目前聚焦創新、重新定義顧客關係、多元商業模式、找尋新方法創造深層價值、助企業提升營收與效率。

過去曾擔任IBM電商數位轉型全球副總、美國國家醫學院圖書館(National Library of Medicine;NLM)與美國國立衛生研究院(National Institutes of Health;NIH)資深顧問。

作者更多專欄

  •     按讚加入DIGITIMES智慧醫療粉絲團