中文電子病歷的信息抽取研究*
薛萬國
( 解放軍總醫(yī)院醫(yī)學信息情報所, 北京100853)
摘 要: 本研究的目的是加強自然語言理解和本體方法在中文醫(yī)學文本語義標注和內(nèi)容分析中的應用, 為建立計算
機可讀的電子病歷( EMR) 提供技術支持。在EMR 文檔集的構建和預處理基礎上, 建立命名實體規(guī)則、分類詞表和
領域本體, 根據(jù)用戶需要, 利用文本工程通用框架( GATE) 進行相關主題的中文EMR 信息抽取和統(tǒng)計分析。實現(xiàn)
EM R 文檔集的自動語義標注和人工語義標注, 得到患者年齡和性別的分布情況和腦梗死治療用藥的一般性規(guī)律。
結果表明: 基于本體的語義信息抽取可以進一步提高計算機對文本的 理解 能力, 通過領域本體進行EMR 的知識
發(fā)現(xiàn)是可行的。
|
|