摘要:醫(yī)學知識圖譜是實現(xiàn)智慧醫(yī)療的基石,有望帶來更高效精準的醫(yī)療服務。然而,現(xiàn)有知識圖 譜構建技術在醫(yī)學領域中普遍存在效率低,限制多,拓展性差等問題。針對醫(yī)療數(shù)據(jù)跨語種,專業(yè)性強,結構復雜等特點,對構建醫(yī)學知識圖譜的關鍵技術進行了自底向上的全面解析,涵蓋了醫(yī)學知識表示、抽取、融合和推理以及質量評估五部分內(nèi)容。此外,還介紹了醫(yī)學知識圖譜在信息檢索、知識問答、智能診斷等醫(yī)療服務中的應用現(xiàn)狀。最后,結合當前醫(yī)學知 識圖譜構建技術面臨的重大挑戰(zhàn)和關鍵問題,對其發(fā)展前景進行了展望。
關鍵詞:知識圖譜;知識獲取;知識融合;知識推理;自然語言處理
引言
自 1998 年萬維網(wǎng)之父 Tim Berners-Lee 提出語義網(wǎng),人們不斷在網(wǎng)絡等電子載體上表達和修正對客觀世界的理解,形成 了一個概念標準化的過程,同時隨著鏈接開放數(shù)據(jù) (Linked Open Data)的規(guī)模激增,互聯(lián)網(wǎng)上散落了越來越多的知識元數(shù)據(jù)。
知識圖譜就是在這樣的大數(shù)據(jù)背景下產(chǎn)生的一種知識表示和管理的方式,強調語義檢索能力。近年來,在人工智能的蓬勃發(fā)展下,知識圖譜涉及到的知識抽取、表示、融合、推理、問答等關鍵問題得到一定程度的解決和突破,知識圖譜成為知識服務領域的一個新熱點,受到國內(nèi)外學者和工業(yè)界廣泛關注。
知識圖譜的前身是語義網(wǎng),它吸收了語義網(wǎng)、本體在知識組織和表達方面的理念,使得知識更易于在計算機之間和計算機與人之間交換、流通和加工。具體來說,一個知識圖譜由模式圖、數(shù)據(jù)圖及兩者之間的關系組成:模式圖對人類知識領域的概念層面進行描述,強調概念及概念關系的形式化表達,模 式圖中節(jié)點是概念實體,邊是概念間的語義關系,如 part-of;數(shù)據(jù)圖對物理世界層面進行描述,強調一系列客觀事實。數(shù)據(jù)圖中的節(jié)點有兩類,一是模式圖中的概念實體,二是描述性字符串,數(shù)據(jù)圖中的邊是具體事實的語義描述;模式圖和數(shù)據(jù)圖之間的關系指數(shù)據(jù)圖的實例與模式圖的概念之間的對應,或者說模式圖是數(shù)據(jù)圖的模具。
著名的通用知識圖譜中有,谷歌“Knowledge Graph”、搜狗“知立方”、YAGO、DBpedia等,它們具有規(guī)模大、領域寬,包含大量常識等特點。目前,醫(yī)學是知識圖譜應用最 廣的垂直領域之一,如上海曙光醫(yī)院構建的中醫(yī)藥知識圖譜、本體醫(yī)療知識庫 SNOMED-CT,IBM Watson Health等應用近兩年也開始進入人們視線。
知識圖譜是智能大數(shù)據(jù)的前沿研究問題,它以獨有的技術優(yōu)勢順應了信息化時代的發(fā)展,比如漸增式的數(shù)據(jù)模式設計;良好的數(shù)據(jù)集成;現(xiàn)有 RDF、OWL等標準支持;語義搜索和知識推理能力等。在醫(yī)學領域,隨著區(qū)域衛(wèi)生信息化及醫(yī)療信息系統(tǒng)的發(fā)展,積累了海量的醫(yī)學數(shù)據(jù)。如何從這些數(shù)據(jù)中提煉信息,并加以管理、共享及應用,是推進醫(yī)學智能化的關鍵問題,是醫(yī)學知識檢索、臨床診斷、醫(yī)療質量管理、電子病歷 及健康檔案智能化處理的基礎。
本文首先介紹了醫(yī)學知識圖譜的構建技術,主要涉及到醫(yī)學知識表示;醫(yī)學知識抽取,包括實體、關系、屬性的抽取;醫(yī)學知識融合;醫(yī)學知識推理和質量評估五個部分。然后介紹了基于醫(yī)學知識圖譜的包括檢索、問答、決策等的應用現(xiàn)狀。最后對醫(yī)學知識圖譜的研究、應用重點,面臨的挑戰(zhàn)以及未來 的發(fā)展趨勢進行了展望。
1 醫(yī)學知識圖譜構建
本文將醫(yī)學知識圖譜構建技術歸納為五部分,即醫(yī)學知識的表示、抽取、融合、推理以及質量評估。通過從大量的結構化或非結構化的醫(yī)學數(shù)據(jù)中提取出實體、關系、屬性等知識圖譜的組成元素,選擇合理高效的方式存入知識庫。醫(yī)學知識融合對醫(yī)學知識庫內(nèi)容進行消歧和鏈接,增強知識庫內(nèi)部的邏輯性和表達能力,并通過人工或自動的方式為醫(yī)學知識圖譜更新舊知識或補充新知識。借助知識推理,推出缺失事實,自動完成疾病診斷與治療。質量評估則是保障數(shù)據(jù)的重要手段,提高醫(yī)學知識圖譜的可信度和準確度。
1.1 醫(yī)學知識表示
知識表示是為描述世界所做的一組約定,是知識符號化、 形式化、模式化的過程,主要研究計算機存儲知識的方法, 其表示方式影響系統(tǒng)的知識獲取、存儲及運用的效率。然而醫(yī)學數(shù)據(jù)種類繁雜,存儲方式不一,電子病歷格式和標準不同,經(jīng)常涉及交叉領域等特點,導致醫(yī)學領域與其他領域在知識表示方面有所差異,同時也給醫(yī)學領域的知識表示帶來極大的挑戰(zhàn)。
早期醫(yī)療知識庫運用的知識表示方法有:謂詞邏輯表示法,產(chǎn)生式表示法,框架表示法,語義網(wǎng)表示法等等。比如, SNOMED-CT,早期的 MYCIN 系統(tǒng),大腸桿菌數(shù)據(jù)庫 EcoCyc等。隨著知識圖譜中知識增長、關系復雜化,這些方法由于表示能力有限且缺乏靈活性,不再作為主要的知識表示方法,更多是作為醫(yī)學知識表示的輔助或補充。
本體表示法以網(wǎng)絡的形式表示知識,即以(實體 1,關系, 實體 2)三元組來表示相關聯(lián)的兩個節(jié)點(實體),在知識圖譜提出之后逐漸得到認可。它借鑒了語義網(wǎng)表示法但又有所區(qū)別:本體關注的是實體固有特征,比后者更聚焦,更深入,因而也具有更大的發(fā)展?jié)摿Α6倔w的描述語言也多種多樣:主 要有RDF和RDF-S、DAML、OWL等。使用本體表示醫(yī)學術語可以提升數(shù)據(jù)整合能力:建立強大、可互操作的醫(yī)療信息系統(tǒng);滿足重用共享傳輸醫(yī)療數(shù)據(jù)的需求;提供基于不同語義標準的統(tǒng)計聚合。醫(yī)學領域本體的構建,需要深入分析醫(yī)學術語的結構和概念,才能將晦澀甚至是跨語言的醫(yī)學知識有效地表達出來。目前的醫(yī)學知識本體庫有:醫(yī)學概念知識庫LinkBase,TAMBIS本體庫(TaO)等等。
知識圖譜的節(jié)點個數(shù)影響著網(wǎng)絡的結構復雜度及推理的效率和難度。知識表示學習借助機器學習,將研究對象的語義信息表示為稠密低維向量,有效解決數(shù)據(jù)稀疏問題,從而提升知識融合和推理性能[。低維向量表示是一種分布式表示 (distributed representation),它模仿人腦中使用多個神經(jīng)元存儲對象的工作機制,使用多維度向量表示對象的語義信息。知識表示學習中的代表模型有:結構化表示法(Structure Embedding,SE),單層神經(jīng)網(wǎng)絡模型(single layer model,SLM),隱變量模型(latent factor model,LFM),基于TransE的翻譯模型等等。這些模型考慮實體間的協(xié)同性和計算開銷,用向量表示實體,再對表示實體的向量或關系進行相應的矩陣變換,提出評價函數(shù)來衡量實體間的相關性,并為 之后的知識補全和推理提供重要參考。Kleyko 等人證明了分布式表示方法表示醫(yī)學圖像進行分類精度能夠與最佳經(jīng)典方法相同;Henriksson 等人對比使用多種知識表示方法表示 EHR 中 4 類記錄:診斷記錄,藥物使用記錄,治療方法和病程記錄。顯然,知識表示學習無疑為醫(yī)學知識圖譜的知識表示開辟了新 思路。
1.2 醫(yī)學知識抽取
醫(yī)學知識圖譜的構建主要是從非結構化數(shù)據(jù)中人工或自動地提取實體、關系和屬性。人工提取是通過專家依據(jù)一定規(guī)則收集并整理相關信息,提取知識。目前通過人工構建的醫(yī)學知識庫包括臨床醫(yī)學知識庫、SNOMED-CT、ICD-10 等。自動提取則是利用機器學習、人工智能、數(shù)據(jù)挖掘等信息抽取技術,從數(shù)據(jù)源中自動提取出知識圖譜的基本組成元素。自動構建醫(yī) 學知識庫的典型例子有一體化醫(yī)學語言系統(tǒng) UMLS。人工提取的代價太大,知識的自動提取是目前重點的研究方向,也是將來構建知識圖譜的趨勢。本節(jié)主要介紹如何自動從數(shù)據(jù)源中抽取知識和信息,包括實體、關系和屬性抽取。
1.2.1 實體抽取
識別文本中的生物醫(yī)學實體,其目的在于通過識別關鍵概念進一步提取關系和其他信息,并將識別的概念以標準化的形式表示出來。醫(yī)學領域的實體抽取是從醫(yī)學數(shù)據(jù)源中提取出特定類型的命名實體。本節(jié)將醫(yī)學實體的抽取方法歸納為三類:基于醫(yī)學詞典及規(guī)則的方法、基于醫(yī)學數(shù)據(jù)源的統(tǒng)計學和機器學習方法以及深度學習方法。
1)基于醫(yī)學詞典及規(guī)則的方法
該方法通過人工定義規(guī)則和模式匹配生成詞典或使用現(xiàn)有醫(yī)學詞典從語料中抽取醫(yī)學實體,該方法是具有挑戰(zhàn)性的。首先,目前沒有完整的字典囊括所有類型的生物命名實體,所以簡單的文本匹配算法是不足以應對實體識別的。其次,相同的單詞或短語其意義可根據(jù)上下文的改變而指代不同的物體(如,
鐵蛋白可以是生物物質或實驗室測試方法)。再次,許多生物或 藥物實體同時擁有多個名稱(如 PTEN 和 MMAC指代相同的基因)。因此,基于醫(yī)學詞典及規(guī)則只在最早期被廣泛使用。 Friedman等通過自定義語義模式和語法來識別電子病歷中的醫(yī)學信息。Wu等人使用了 CHV和 SNOMED-CT兩個醫(yī)學詞典得到了不錯的實驗結果。雖然該方法能達到很高的準確度,但無法徹底解決上述問題,也過分依賴專家編寫的詞典和規(guī)則,無法適應醫(yī)學領域詞匯不斷涌現(xiàn)的現(xiàn)實情況。
2)基于醫(yī)學數(shù)據(jù)源和數(shù)學模型的機器學習方法
該方法通過使用統(tǒng)計學和機器學習方法,結合醫(yī)學數(shù)據(jù)源的特點訓練模型,進行實體識別。在英文醫(yī)學實體抽取方面, 最具代表性的標注語料是 I2B2 2010發(fā)布的英文電子病歷標注語料。另外,還有 SemEval、NTCIR等評測,以及 NCBI語料庫等,都提供了英文醫(yī)學實體標注數(shù)據(jù)。
目前常用方法有隱馬爾可夫模型(HMM),條件隨機場模 型(CRF),支持向量機模型(SVM)等。Kazama 等人使用 SVM模型進行生物醫(yī)學命名實體識別,引入了 POS,詞緩存,無監(jiān)督訓練得到的 HMM狀態(tài)等特征。該方法在 GENIA 語料庫中準確率高于最大熵標記方法,并能較高效地應用于大規(guī)模語料集。Zhou等人通過一系列特征訓練 HMM 模型,包括詞的構成特征,形態(tài)特征,POS,語義觸發(fā),文獻內(nèi)名稱別名等。其識別準確率達66.5%,在 GENIA語料庫中的召回率達66.6%。 綜合以上方法,Chen 和 Friedman利用MEDLEE系統(tǒng)來識別與生物醫(yī)學文本中與表型信息相對應的短語。該系統(tǒng)使用自然語言技術來識別期刊文章摘要中存在的表型短語。生物醫(yī)學的實體識別常常可使用較小的表型相關術語的知識庫。Chen 和 Friedman自動導入與語義類別相關的數(shù)千個 UMLS 術語,如細胞體功能和細胞功能障礙,以及哺乳動物本體中的幾百個術語;并手動添加了幾百個術語。實驗結果表明,其實體識別準 確率達 64.0%,召回率達 77.1%。雖然結果不高,但為之后的研究人員提供了一條可行的思路。
在醫(yī)學領域,命名實體識別的痛點在于數(shù)據(jù)質量的良莠不齊以及人工標注的專業(yè)性要求高。目前有專門研究如何降低對于數(shù)據(jù)標注依賴的研究,其原理主要是利用海量未標注數(shù)據(jù)持續(xù)提升模型性能,從小樣本中進行學習,自我探索逐步學習新知識,形成一個交互學習過程。
3)深度學習方法
深度學習近年來開始被廣泛應用于命名實體識別,最具代表性的模型是2011年Collobert提出的一個深層神經(jīng)網(wǎng)絡模型,其效果和性能超過了傳統(tǒng)算法。Sahu等人所提出的 CNN 與 RNN 級聯(lián)的方法生成詞嵌入特征,其結果優(yōu)于目前最好的算法且不需要過多的特征工程。 在醫(yī)學領域,We 等人基于CRF和雙向RNN生成特征, 再使用SVM 進行疾病命名實體識別。目前醫(yī)學信息命名實體識別任務中最主流的深度學習模型是 BiLSTM-CRF 模型,Jagannatha等人對比了 CRF,BiLSTM,BiLSTM-CRF 三種模型,以及一些它們的改進模型,在英文電子病歷命名實體識別的效果,實驗結果表明所有基于 LSTM 的模型都比 CRF效果更好,并且 BiLSTM 結合 CRF 模型能夠進一步提高評測結果 2%-5%的準確率。
1.2.2 實體抽取
本文將醫(yī)學實體關系抽取歸結為兩類: a)同類型醫(yī)學實體層級關系抽取,如疾病的“腸胃病-慢性胃炎”等;b)不同類型關系抽取,如“疾病-癥狀”等。
1)同類型醫(yī)學實體層級關系抽取
同類型醫(yī)學實體層級關系相對較為單一,主要是 is-a 和 part-of關系。由于醫(yī)學有其嚴謹?shù)膶W科體系和行業(yè)規(guī)范,因此此類關系往往在醫(yī)學詞典、百科、信息標準中進行。 ICD-10、SNOMED等醫(yī)療詞典或醫(yī)療數(shù)據(jù)庫重點關注醫(yī)學專業(yè)術語、受限詞匯的分類和概念標準化工作,權威且涵蓋范圍廣,在數(shù)量和質量上都有所保障,被醫(yī)療行業(yè)廣泛認可,是抽取層級間實體關系的首選來源。針對具體的醫(yī)療詞典、知識庫提供的數(shù)據(jù)格式和開放 API 接口,可通過爬蟲、正則表達式、D2R映射等技術從中抽取分層結構,抽取三元組來匹配、 添加上下位關系。
2)不同類型醫(yī)學實體關系抽取
不同類型醫(yī)學實體間的語義關系識別大致基于兩大不同數(shù)據(jù)源而實現(xiàn)。一是百科或其他結構化數(shù)據(jù)源,如 Medline,UMLS 等;二是半結構化的電子病歷。
醫(yī)學實體類型相對有限(主要是疾病、癥狀、治療、藥品等),目前通常在兩個實體間預定義好要抽取的關系類型,再將抽取任務轉換為分類問題來處理。如何預定義實體關系目前尚未有統(tǒng)一的標準,這取決于醫(yī)學知識圖譜構建過程中模式圖的設置、實體識別情況、語料來源、構建目的及應用場景等,如 在 I2B2 2010 評測中,將電子病歷中的實體關系分成了醫(yī)療問題與醫(yī)療問題、醫(yī)療問題與治療、醫(yī)療問題與檢查三類。
近幾年,Uzuner 團隊在句子層面抽取了六類醫(yī)療實體關系,使用實體順序和距離、鏈接語法和詞匯特征來訓練 6 個 SVM 分類器,通過對比實驗,指出詞匯特征在實體關系識別中 的重要作用。在此基礎上,基于Medline 摘要,Frunza 等抽取了疾病、治療間的三種關系,并引入 UMLS 生物和醫(yī)療實體特征,取得了不錯的實驗結果。而 Abacha 等在同樣的任 務中使用人工模板和 SVM 的混合模型,取得了 94.07%的平均 F值。該研究指出,在樣本數(shù)較少時,模板匹配方法起主要作用,而面向海量樣本時則 SVM 起主要作用。
此外,在關系識別的分類方法對比研究中,Bruijn 等人在 I2B2 2010 評測中對比研究了有監(jiān)督分類和基于 Self-training 的半監(jiān)督分類的表現(xiàn),表明了UMLS、依存句法分析結果和未標記數(shù)據(jù)對關系識別有著顯著影響。除了預定義關系然后轉換為分類任務來處理的方法,還有少量研究采用了模板匹配、統(tǒng)計共現(xiàn)等方法來抽取關系。如在 Medline 摘要中通過統(tǒng)計基因名的共現(xiàn)來提取關系,并根據(jù)共現(xiàn)矩陣生成了關系圖,或在 Medline 摘要中通過語法依賴樹進行圖的模式匹配,進而抽取因果關系。
1.2.3 屬性抽取
屬性抽取是指對屬性和屬性值對(attribute-value pair, AVP)的抽取,其中屬性的抽取是指為醫(yī)學實體構造屬性列表,如藥品的屬性包括適應癥、禁忌癥等。屬性值的抽取是指為各實體附加具體的屬性值,如阿莫西林是青霉素過敏者禁用。常見的抽取方法包括從開放鏈接數(shù)據(jù)提取、從結構化數(shù)據(jù)庫提取、從百科類站點提取、從垂直網(wǎng)站進行包裝器歸納、以及利用模式匹配從查詢?nèi)罩局刑崛〉取τ卺t(yī)學知識圖譜來說,主要通過上文提及的醫(yī)學詞典和主流醫(yī)學站點來進行。值得一提的是,前者關于屬性和屬性值對的描述相對比較稀疏(特別對于中文領域),因此需從主流醫(yī)學站點進一步抽取整合。
對于 AVP 結構化程度比較高的網(wǎng)站,如維基百科、A+醫(yī) 學百科6等,有規(guī)整的信息框(InfoBox),可以方便地爬取識別InfoBox 部分,直接提取該實體對應的屬性名和屬性值,置信度高,但規(guī)模較小。而對于更多形式各異、半結構化的醫(yī)藥站點和垂直文本來說,通常是構建面向站點的包裝器,從待抽取 站點采樣并標注幾個典型的詳細頁面(Detailed Pages),利用這些頁面通過模式學習自動構建出一個或多個類 Xpath 表示的模式,然后將其應用在該站點的其他詳細頁面中從而實現(xiàn)自動化 的 AVP 抽取。
1.3 醫(yī)學知識融合
知識融合是高層次的知識組織,使不同來源的知識在同一框架規(guī)范下進行數(shù)據(jù)整合、消歧、加工、推理驗證、更新等 步驟7,目的是解決知識復用的問題,增強知識庫內(nèi)部的邏輯性和表達能力。針對知識圖譜中不同粒度的知識對象,知識融合 可細分為實體對齊、知識庫的融合等。
1.3.1 實體對齊
醫(yī)療知識圖譜中知識來源的多樣性導致了知識重復、知識質量良莠不齊、知識間關聯(lián)不夠明確等問題。 醫(yī)學實體在不同的數(shù)據(jù)源中存在嚴重的多元指代問題,例如阿奇霉素在百度百科中被稱為希舒美,在 A+醫(yī)學百科中別名有阿齊霉素、阿奇紅霉素、疊氮紅霉素等,商品名有泰力特、希舒美、舒美特等。 因此實體對齊是醫(yī)學知識融合中非常重要的一步。實體對齊是判斷多源異構數(shù)據(jù)中的實體是否指向真實世界同一對象的過程。
現(xiàn)有的對齊算法有成對實體對齊與集體實體對齊兩類。成對實體對齊方法只考慮實例及其屬性相似度,包括基于傳統(tǒng)概率模型的實體對齊方法和基于機器學習的實體對齊方法。前者以Fellegi等人將基于屬性相似性評分的實體對齊問題轉換為分類問題的工作為基礎,至今仍應用于很多實體對齊工作中;后者常用的對齊方法有分類回歸樹算法、ID3 決策樹算法、SVM 分類方法、集成學習框架等基于有監(jiān)督學習的方法和無監(jiān)督學習下的層次圖模型等基于無監(jiān)督學習的方法。
集體實體對齊在成對實體對齊的基礎上在計算實體相似度時加入了實體間的相互關系,分為局部集體實體對齊與全局集體實體對齊。前者典型算法是使用向量空間模型和余弦相似度計算實體相似性,準確率不高,但召回率和運行速度比較可觀。后者通過不同匹配決策之間的相互影響來調整實體間的相似度,又分為基于相似性傳播和基于概率模型的集體實體對齊方法。基于相似性傳播的方法通過初始匹配以“bootstrapping” 方式迭代地產(chǎn)生新的匹配[。Lacoste-Julien 等人在此基礎上提出的 SiGMa 算法更適合大規(guī)模知識庫,但需要一定的人工干預。基于概率模型的方法通過為實體匹配關系和決策建立復雜的概率模型,包括關系貝葉斯網(wǎng)絡模型、LDA 分配模型、CRF 模型和 Markov邏輯網(wǎng)模型等,可以提高匹配效果,但效率還有待提高。
當來自不同知識源的數(shù)據(jù)出現(xiàn)數(shù)據(jù)沖突時,需要考慮知識源的可靠性以及不同信息在各知識源中出現(xiàn)的頻度等因素。阮彤等人]在構建中醫(yī)藥知識圖譜時對數(shù)據(jù)源的可信度進行評分,結合數(shù)據(jù)在不同來源中出現(xiàn)的次數(shù),對數(shù)據(jù)項進行排序, 并補充到相應的屬性值字段中。
隨著知識庫規(guī)模擴大和實體數(shù)量的增加,知識庫中的實體對齊越來越受到重視,如何準確高效地實體對齊是未來知識融 合的研究重點之一。
1.3.2 知識庫融合
構建知識庫時需求和設計理念不同會導致知識庫中數(shù)據(jù)的多樣性和異構性。對于龐雜的醫(yī)療知識來說,當前多數(shù)知識庫都是針對某個科室或者某類疾病或藥物來構建的,比如脾胃病 知識庫[60]、中醫(yī)藥知識圖譜等,若要得到更完善的醫(yī)療知識圖譜,需要對不同的醫(yī)療知識庫進行融合以及將尚未涵蓋的知識和不斷產(chǎn)生的新知識融合到已有的知識圖譜中。醫(yī)療知識圖譜的構建是一個不斷迭代更新的過程。
知識庫融合的研究工作始于“本體匹配”,初期針對本體類別的語義相似性進行匹配。隨著知識庫規(guī)模擴大和結構復雜化,類別、屬性以及實體和它們之間的相互關系等也成為考慮的因素。Suchanek 等人提出的基于概率的知識融合算法PAIRS以兩個知識庫作為輸入,能夠高效地跨本體同時對齊類別、實例、屬性和關系。但 PARIS 需要一定的人工參與。由于人類的精力和認知有限,自動地從 Web 中獲取知識并進行融合十分必要。Dong 等人提出了將以消除歧義的三元組的形式從整個網(wǎng)絡中提取事實與使用 PRA 和神經(jīng)網(wǎng)絡模型兩種方法從 Freebase 圖得到的先驗知識融合在一起的知識融合方法, 可達到自動構建 Web 規(guī)模的概率知識庫的水準,提升了效率。
在醫(yī)療領域,Dieng-Kuntz 等人將醫(yī)療數(shù)據(jù)庫轉換為醫(yī)療本體,然后對其他文本語料使用半自動的語言工具進行語義提取,在人工控制下對本體進行擴展和補全,并用啟發(fā)式規(guī)則自動建立知識的概念層次。Baorto 等人將數(shù)據(jù)源添加到臨床信息系統(tǒng)時先確定數(shù)據(jù)的控制術語是否已經(jīng)存在,然后將新術語添加到 MED( Medical Entities Dictionary),同時建立審計流程以保證引入數(shù)據(jù)的一致性。
目前醫(yī)療領域知識圖譜的融合技術雖有一些有意義的嘗試,但仍需要大量人工干預,高效的知識融合算法有待進一步研究。醫(yī)療領域的知識圖譜也可以考慮采用眾包的方式進行知識融合。
1.4 醫(yī)學知識推理
推理是從已有知識中挖掘出隱含信息,而知識推理更注重知識與方法的選擇與運用,盡量減少人工參與,推出缺失事實,完成問題求解。在醫(yī)學知識圖譜中,知識推理幫助醫(yī)生完成病患數(shù)據(jù)搜集、疾病診斷與治療,控制醫(yī)療差錯率。然而,即使對于相同的疾病,醫(yī)生也會根據(jù)病人狀況作出不同的診斷,即
醫(yī)學知識圖譜必須處理大量重復矛盾的信息,這就增加了構建醫(yī)學推理模型的復雜性。 傳統(tǒng)的知識推理方法有基于描述邏輯(Description Logic, DL)推理,基于規(guī)則推理(Rule-based Reasoning,CBR)與基于案例推理(Case-based Reasoning,CBR)等等。Bousquet C 等人使用基于 DAML+OIL 描述邏輯執(zhí)行術語推理來改進藥 物警戒系統(tǒng)中信號檢測;Chen R 等人采用 RBR 方法開發(fā)出糖尿病診斷系統(tǒng)以提供用藥建議;CARE-PARNER 系統(tǒng)則是基于CBR給出診斷結果與治療方案等等。
傳統(tǒng)的知識推理方法雖在一定程度推動醫(yī)療診斷自動化進程,但是也存在學習能力不足,數(shù)據(jù)利用率不高,準確率待提升等明顯缺陷,遠未達到實際應用的要求。面對日益增長的醫(yī)療數(shù)據(jù),診斷時不可避免地會出現(xiàn)信息遺漏,診斷時間延長等 問題。而人工智能,尤其是人工神經(jīng)網(wǎng)絡(Artificial Neural Networks,ANNs)擁有從海量數(shù)據(jù)挖掘有用信息的天然優(yōu)勢。 ART-KNN(ART-Kohonen neural network)與 CBR 相結合可以提高后者在推理故障情況的效率和準確度。神經(jīng)張量網(wǎng)絡模型(neural tensor networks)在 FreeBase 等開放本體庫上對未知關系推理的準確率可達 90.0%。Karegowda A G 等人在 Pima 印第安人糖尿病知識庫(PIDD)中使用了遺傳算法 (Genetic Algorithm,GA)和反向傳播網(wǎng)絡(Back Propatation Network,BPN)的混合模型,診斷準確率提高 7%左右。
與深度學習將知識圖譜作為數(shù)據(jù)源不同,基于圖的推理則將知識圖譜視為圖,以實體為節(jié)點,以關系或屬性為邊,利用關系路徑來找到節(jié)點間的多步路徑,Path Ranking 算法,PTransE就是利用這樣的原理來推斷實體間的語義關系。圖數(shù)據(jù)庫使知識圖譜能以圖的數(shù)據(jù)結構進行存儲,與傳統(tǒng)數(shù)據(jù)庫相比,前者在高維度關聯(lián)查詢的效率明顯提高。然而圖數(shù)據(jù)庫尚未成熟,暫無法完成太復雜的知識推理。較為流行的圖 數(shù)據(jù)庫有 Neo4j,Titan,OrientDB和 ArangoDB等。王昊奮等人在醫(yī)療質量與患者安全輔助監(jiān)控系統(tǒng)中,就將醫(yī)療本體的數(shù)據(jù)存放在 AllegroGraph 圖數(shù)據(jù)庫中。
與通用知識圖譜相類似,醫(yī)學知識圖譜也還有對跨知識庫知識推理、基于模糊本體的知識推理等問題的研究。
1.5 質量評估
數(shù)據(jù)的質量直接影響數(shù)據(jù)的運用,質量評估是保障數(shù)據(jù)的重要手段,可以量化數(shù)據(jù)質量,篩選出置信度高的數(shù)據(jù)。醫(yī)學診斷對數(shù)據(jù)和醫(yī)學知識圖譜的可信度和準確度提出了更高的要求。質量評估并不是構建醫(yī)療知識圖譜的最后一步,而是貫穿 在知識圖譜的整個生命周期:早在 2013 年本體峰會(Ontology Summit2013)就對本體的生命周期的各個階段所要進行的評估工作做了相關的說明。
目前,知識圖譜/本體的評估方法可分為四大類:基于黃金 標準的方法,基于本體任務/應用的方法,數(shù)據(jù)驅動的方法,和基于指標的方法。表 1 對比了這幾種本體評估方法。
具體到醫(yī)學領域,本體評估方法因應用場景而異:Clarke 等人使用基于任務評估方法來分析基因本體的從 2004 至 2012 年的性能;Bright 等使用本體設計原則和領域專家審查意見 作為指標來評估本體在抗生素決策支持系統(tǒng)中的效果;Gordon 等通過將電子病歷,診斷案例和臨床實踐等來構造“黃 金標準”來評估,改進傳染疾病本體 BCIDO等。為方便用戶進行本體評估和加快本體評估自動化進程,本體評估工具封裝了評估方法。不同的工具從不同的視角對本體的不同指標進行評估。針對評估的側重點,選擇合適的工具才能對本體作出 符合應用要求的評估。
比較常用的本體評估工具有:ODEval,OOPS,OntoManager,Core等。除了醫(yī)學本體,醫(yī)學知識圖譜還涵蓋其他復雜多樣的信息,因此,質量評估還包括對數(shù)據(jù)質量, 專家信息,知識庫等方面進行評估。
相比通用領域的知識圖譜,醫(yī)學領域的知識圖譜評估存在以下特殊性:a)鑒于醫(yī)學的嚴謹性,評估往往綜合多種方法進行多角度的評估,如 Bright 等利用本體設計原則和領域專家審查來進行等級評估; b)往往需設置等級較高的警告(alerts),如與處方相關的警報包括抗生素-微生物不匹配警報、用藥過敏 警報、非推薦的經(jīng)驗性抗生素治療警報、治療方案-癥狀間不匹配警報等;c)除了從形式方面評價知識圖譜以外,也注重于檢驗知識差距,因為知識的全面性和準確性將直接影響臨床決策支持的置信度。此外,醫(yī)學知識圖譜是融合計算機科學等眾多學科的交叉學科,評價指標不能簡單地照搬某個的學科的指標,而是應該綜合考慮眾多因素。知識圖譜/本體評估方法如下表所示:
|