病歷智能分析系統(tǒng):挖掘自然語言處理技術(shù)在醫(yī)療大數(shù)據(jù)中的價(jià)值

病歷 作為醫(yī)院的寶貴財(cái)富,里面蘊(yùn)含了大量的專業(yè)知識(shí),但是由于受到技術(shù)的限制,長(zhǎng)期得不到有效利用。我院作為一所大型三甲綜合醫(yī)院,學(xué)科實(shí)力雄厚,對(duì)臨床科研的要求也非常高。但是醫(yī)生還停留在去病案室借閱病歷,手工摘抄收集科研數(shù)據(jù)的階段,效率十分低下。如何利用最新的 人工智能 技術(shù),讓機(jī)器“讀懂”病歷數(shù)據(jù),提高臨床科研效率和質(zhì)量,是目前亟需解決的課題。
對(duì)病歷文本相關(guān)的智能分析主要涉及 自然語言處理技術(shù) ,相關(guān)研究開始于20世紀(jì)60年代的美國(guó),衍生出包括醫(yī)學(xué)信息抽取、臨床問答系統(tǒng)和臨床決策支持系統(tǒng)等。對(duì)于醫(yī)學(xué)文本信息抽取,目前已經(jīng)有相對(duì)成熟的系統(tǒng)在醫(yī)院使用,包括MedLEE、Ctakes和GATE等。YongGangCao等構(gòu)建了幫助醫(yī)生查詢病人癥狀有關(guān)幫助的AskHERMES問答系統(tǒng)。
我國(guó)醫(yī)學(xué)自然語言處理的發(fā)展水平還與發(fā)達(dá)國(guó)家有一定差距,主要集中在基于規(guī)則和專家系統(tǒng)的方法,而將機(jī)器學(xué)習(xí)、深度學(xué)習(xí)應(yīng)用到醫(yī)學(xué)自然語言處理需要更加深入的研究。對(duì)此,我們結(jié)合國(guó)內(nèi)外最新的研究現(xiàn)狀,在我院率先開展了利用自然語言處理技術(shù)構(gòu)建病歷智能分析系統(tǒng)的研究工作。
病歷智能分析系統(tǒng)設(shè)計(jì)
1、 功能模塊
病歷智能分析系統(tǒng)的核心技術(shù)是自然語言處理。系統(tǒng)主要涉及句法學(xué)、語義學(xué)和語用學(xué)共三個(gè)不同等級(jí)的語言學(xué)分析,由分詞、病歷標(biāo)注、命名實(shí)體識(shí)別和語義關(guān)聯(lián)抽取共四個(gè)模塊組成,如圖1所示。
( 圖1 )病歷智能分析系統(tǒng)功能模塊設(shè)計(jì)
2、核心技術(shù)
①分詞
作為病歷智能分析的第一步,對(duì)中文病歷文本進(jìn)行分詞至關(guān)重要。病歷文本內(nèi)有大量的醫(yī)學(xué)專業(yè)術(shù)語和表達(dá),這種特點(diǎn)導(dǎo)致傳統(tǒng)中文分詞工具對(duì)病歷文本的分詞效果不好。例如藥品名“去甲偽麻黃堿”會(huì)被劃分為“去/甲/偽/麻黃堿”,而不是將其當(dāng)成一個(gè)整體。為了提高對(duì)病歷文本的分詞效果,我們收集了醫(yī)學(xué)專業(yè)詞匯和常用藥品名等,將這些詞條整合成詞典作為分詞工具的補(bǔ)充。我們將詞典與開源的“結(jié)巴分詞”工具相結(jié)合來對(duì)中文電子病歷進(jìn)行分詞處理,構(gòu)成了一個(gè)完全非監(jiān)督、無需人工標(biāo)注即可使用的中文病歷分詞引擎。
②病歷標(biāo)注
有監(jiān)督的機(jī)器學(xué)習(xí)方法能對(duì)病歷文本中的醫(yī)學(xué)知識(shí)和患者的健康信息進(jìn)行抽取,而進(jìn)行監(jiān)督學(xué)習(xí)的第一步是進(jìn)行病歷文本的人工標(biāo)注,以使得標(biāo)注后的數(shù)據(jù)能夠?qū)C(jī)器進(jìn)行有效的訓(xùn)練。我們對(duì)兩類信息:醫(yī)學(xué)命名實(shí)體(包括疾病、疾病診斷、臨床癥狀、檢查和治療等),以及實(shí)體間的語義關(guān)聯(lián)(治療和疾病間的關(guān)系、治療和癥狀的關(guān)系、檢查和疾病的關(guān)系、檢查和癥狀的關(guān)系以及疾病和癥狀的關(guān)系),進(jìn)行了人工標(biāo)注。在標(biāo)注過程中我們采用了BIO的標(biāo)注體系,即B表示一個(gè)命名實(shí)體的開始,I表示目標(biāo)詞在命名實(shí)體的內(nèi)部,O表示目標(biāo)詞不屬于命名實(shí)體。我們隨機(jī)抽樣了來自我院的3000份出院小結(jié),并召集我院內(nèi)的臨床實(shí)習(xí)生對(duì)其進(jìn)行上述標(biāo)注。在其中300份病歷上,我們制定了兩名標(biāo)注者同時(shí)對(duì)其進(jìn)行標(biāo)注,并使用Cohen′s Kappa計(jì)算其標(biāo)注一致性,并獲得了0.68的Kappa值。
3、命名實(shí)體識(shí)別分析技術(shù)
命名實(shí)體識(shí)別技術(shù)指的是將病歷中重要的醫(yī)學(xué)實(shí)體,如疾病、癥狀、檢查、治療變量等從病歷文本中抽取出來。例如“患者30余年前因反復(fù)咳嗽咳痰多次就診,診斷為慢性支氣管炎,平素服用順爾寧控制癥狀”這句話中,“咳嗽咳痰”被識(shí)別為癥狀,“慢性支氣管炎”被識(shí)別為診斷,“順爾寧”被識(shí)別為藥物,屬于醫(yī)療手段。
由于病歷文本是由自由文本書寫而成,因此將這些醫(yī)學(xué)命名實(shí)體進(jìn)行識(shí)別時(shí)將病歷文本進(jìn)行結(jié)構(gòu)化是病歷智能分析的重要環(huán)節(jié)。目前命名實(shí)體識(shí)別的方法主要分為基于詞典和規(guī)則的方法和基于機(jī)器學(xué)習(xí)的方法。基于詞典和規(guī)則的方法需要人工編制出很多相關(guān)規(guī)則和專業(yè)的醫(yī)學(xué)詞典,而詞典和規(guī)則的編制過程需要大量的人力,并且這些規(guī)則和詞典應(yīng)用到病歷文本時(shí)受到命名實(shí)體上下文的影響很大,因此效果不是很理想;而基于機(jī)器學(xué)習(xí)的方法是將命名實(shí)體識(shí)別任務(wù)作為序列數(shù)據(jù)的標(biāo)注問題,主要考慮上下文的信息。
目前公認(rèn)完成命名實(shí)體識(shí)別性能較好的機(jī)器學(xué)習(xí)模型是條件隨機(jī)場(chǎng)(Conditional Random Fields),特征構(gòu)造過程中常用的特征是上下文特征、字典特征等。我們利用條件隨機(jī)場(chǎng)來訓(xùn)練命名實(shí)體識(shí)別模型,并采用了開源的CRF++作為我們依賴的工具。我們使用原始字、分詞的結(jié)果、以及上下文(窗口大小為5)中的信息作為特征,對(duì)CRF模型進(jìn)行訓(xùn)練。并利用上一章節(jié)中所述的3000份標(biāo)注病歷,我們對(duì)其進(jìn)行了5-fold的交叉驗(yàn)證。結(jié)果顯示命名實(shí)體識(shí)別的總體F-1評(píng)分(Micro-F)達(dá)到了0.92,證實(shí)了模型能夠準(zhǔn)確地完成醫(yī)學(xué)命名實(shí)體識(shí)別的任務(wù)。
4、語義關(guān)聯(lián)抽取技術(shù)
對(duì)病歷文本中抽取出來命名實(shí)體之間的語義關(guān)聯(lián)進(jìn)行分析,也是病歷智能分析的重要環(huán)節(jié)。抽取的關(guān)系包括疾病和癥狀之間的關(guān)系、疾病和治療之間的關(guān)系、時(shí)間副詞的修飾等。在這個(gè)步驟中,我們把問題轉(zhuǎn)化成了一個(gè)分類問題。即,對(duì)于每一對(duì)特定距離內(nèi)(100字以內(nèi))的命名實(shí)體(相距過遠(yuǎn)的命名實(shí)體我們認(rèn)為其產(chǎn)生關(guān)聯(lián)的可能性很小)我們使用機(jī)器學(xué)習(xí)模型去判斷其是否有關(guān)聯(lián)以及如果有關(guān)聯(lián)其類別是什么。在本工作中,我們嘗試了條件隨機(jī)場(chǎng)(SVM)、邏輯回歸、決策樹(C4.5)等模型,發(fā)現(xiàn)在同等的特征和訓(xùn)練數(shù)據(jù)下,得到了相似性能。因此,我們最終采用了條件隨機(jī)場(chǎng)作為模型,并同樣對(duì)3000份標(biāo)注病歷進(jìn)行了5-fold的交叉驗(yàn)證,獲得了平均0.88的語義關(guān)聯(lián)抽取準(zhǔn)確度。將該分類器應(yīng)用于新的病歷上,能夠獲得的完整解析后的效果,如圖2所示。
( 圖2 )命名實(shí)體識(shí)別和命名實(shí)體關(guān)系抽取結(jié)果示例圖
系統(tǒng)應(yīng)用
1、加速填寫病例報(bào)告表(CRF)
病例報(bào)告表(Case Report Form,CRF)是臨床研究數(shù)據(jù)獲取的主要工具,在藥物臨床實(shí)驗(yàn)和臨床研究中都有廣泛的應(yīng)用。收集到準(zhǔn)確、可靠的臨床數(shù)據(jù)是臨床實(shí)驗(yàn)的重要環(huán)節(jié)。在填寫病例報(bào)告表的過程中要求填寫受試者的基本信息、治療期及隨訪期記錄、試驗(yàn)結(jié)束記錄等。病例報(bào)告表中包含大量的臨床變量,包括患者的癥狀、臨床表現(xiàn)、體征、實(shí)驗(yàn)室檢查等情況。
利用我們構(gòu)建的病歷智能分析系統(tǒng),用命名實(shí)體識(shí)別技術(shù)能將病例報(bào)告表中需要填寫的變量在受試者的報(bào)告中進(jìn)行自動(dòng)抽取,從而加速CRF表中的填寫速度,優(yōu)化臨床實(shí)驗(yàn)的處理流程。
2、優(yōu)化臨床數(shù)據(jù)中心(CDR)
作為構(gòu)建臨床數(shù)據(jù)中心的重要環(huán)節(jié),數(shù)據(jù)的標(biāo)準(zhǔn)化和結(jié)構(gòu)化成為一個(gè)棘手的問題。由于不同系統(tǒng)的電子病歷系統(tǒng)和醫(yī)院信息系統(tǒng)的數(shù)據(jù)標(biāo)準(zhǔn)不同,電子病歷中的醫(yī)學(xué)信息在臨床數(shù)據(jù)中心進(jìn)行流通和利用困難重重。在病歷智能分析系統(tǒng)的幫助下,以自由文本書寫的病歷能進(jìn)行結(jié)構(gòu)化,結(jié)構(gòu)化后病歷文本就可以在不同醫(yī)院和不同區(qū)域間進(jìn)行交換整合。同時(shí),對(duì)電子病歷中積壓的臨床數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,能夠?qū)崿F(xiàn)對(duì)歷史電子病歷中的診療過程的整合,豐富臨床數(shù)據(jù)中心的內(nèi)容。
3、輔助臨床決策支持系統(tǒng)(CDSS)
臨床決策支持系統(tǒng)(Clinical Decision Support System,CDSS)是對(duì)臨床工作的有益補(bǔ)充,能在復(fù)雜和變化的臨床場(chǎng)景下為醫(yī)務(wù)人員提供及時(shí)有效的輔助診斷,有效地提高臨床決策的準(zhǔn)確率和效率。
臨床輔助決策支持系統(tǒng)的數(shù)據(jù)來源通常是醫(yī)學(xué)書籍、文獻(xiàn)、病歷等非結(jié)構(gòu)化數(shù)據(jù),直接利用這些數(shù)據(jù)難以抽取出來診療過程中的變量和變量之間的關(guān)系。利用病歷智能分析系統(tǒng),將這些自由文本進(jìn)行結(jié)構(gòu)化處理之后能幫助臨床輔助決策支持系統(tǒng),更好地挖掘患者既往病史與醫(yī)學(xué)知識(shí)的關(guān)系,提供更優(yōu)質(zhì)和科學(xué)的推薦方案。
本文闡述了病歷智能分析系統(tǒng)的模塊組成、核心技術(shù)及應(yīng)用場(chǎng)景,解決了部分臨床中遇到的問題,得到了臨床的普遍好評(píng)。目前階段,電子病歷中的主觀數(shù)據(jù)需要人工標(biāo)注,占全部病歷數(shù)的10%左右。如何從無標(biāo)注的數(shù)據(jù)進(jìn)行學(xué)習(xí),將是未來三到五年需要解決的重要問題。此外,如何像人一樣從小樣本進(jìn)行有效學(xué)習(xí),以及如何從認(rèn)知性的任務(wù)擴(kuò)展到?jīng)Q策性任務(wù),同樣是需要解決的問題。相信隨著人工智能技術(shù)的快速發(fā)展,特別是深度學(xué)習(xí)技術(shù)的逐漸成熟,自然語言處理技術(shù)將在 醫(yī)學(xué)大數(shù)據(jù) 挖掘中發(fā)揮越來越重要的作用。
【2017億歐創(chuàng)新者年會(huì)暨第三屆創(chuàng)新獎(jiǎng)?lì)C獎(jiǎng)盛典】將于12月13日-14日在北京中國(guó)大飯店舉行。來自全球的100+名國(guó)內(nèi)外頂級(jí)大咖、300+家主流媒體、4000名合作伙伴與行業(yè)精英共同參會(huì),共話產(chǎn)業(yè)創(chuàng)新的未來與發(fā)展。邀您共同參與!
猛戳鏈接查看活動(dòng)詳情: http://www.iyiou.com/post/ad/id/420