醫療大數據的關鍵技術及其發展趨勢
由于醫療大數據涉及到電子病歷、醫學影像、醫院視頻等多種類型的數據,下面針對不同類型的數據對象,簡要介紹醫療大數據分析的關鍵技術。
1.面向醫療電子病歷的結構化信息抽取
電子病歷(ElectronicMedicalRecord,EMR)是指醫務人員在醫療活動過程中,利用電子設備生成的文字、符號、圖表、圖形、數據、影像等不同種類的數字化醫療信息,實現存儲、管理、傳輸和重現的醫療記錄,并蘊含著富有價值的信息。自由文本形式是電子病歷數據的主要格式,沒有嚴格的語法和句法結構,且包含大量名詞縮寫和名詞短語,甚至還存在醫生書寫記錄時的拼寫錯誤,是典型的非(半)結構化數據。面向電子病歷的結構化信息抽取,主要涉及醫療命名實體及其屬性識別、醫療知識圖譜構建和醫療知識圖譜應用等幾個方面。
醫療命名實體識別的主要任務包括:①疾病、癥狀、手術、醫療檢查等醫療命名實體的識別;②相關命名實體的屬性識別,核心在于否定觸發詞的探測(NegationDetection)與識別,例如某疾病史的有無、某癥狀的程度等;③命名實體之間的關聯分析,利用不同命名實體或概念之間的共現關系,建立命名實體之間的聯系。目前,醫療命名實體識別主要利用自然語言處理、信息抽取等技術對電子病歷文本進行分析,命名實體抽取一般采用基于詞典和規則的方法,基于隱馬爾科夫模型、SVM等機器學習方法。
醫療知識圖譜構建,是指在醫療命名實體及其屬性信息抽取的基礎上,構建不同命名實體之間的關聯模型,現有的主要方法包括馬爾可夫隨機場、貝葉斯網絡等概率圖模型方法。
醫療知識圖譜應用,則是利用醫療知識圖譜,面向醫療的實際應用需求,建立掛號咨詢、醫療輔助診斷、疾病治療預案等實際應用系統。
2.面向醫學影像的數據分析
隨著信息技術及醫學影像技術的發展,醫學圖像處理在臨床中發揮著越來越重要的作用,對推動醫學科學研究和臨床的進步發揮了重要作用。
面向醫學影像的數據分析研究重點在于如何利用圖像分析理論和方法成果,結合臨床醫學的實際需求,探索面向醫學影像分析的新方法、新技術,進而實現高效定量分析與可視化,降低疾病診斷與治療的盲目性和不可靠性,為臨床醫生準確診斷,快速地制定治療方案和有效地評估治療效果提供重要支持。
目前的研究主要集中在兩個方面:一是醫學影像處理研究包括醫學影像的增強、分割、配準、融合以及三維重建等,這些技術為醫學影像數據應用提供技術支撐;二是醫學圖像的分析,通過對醫學影像的模式識別與分類,實現對醫學圖像的自動標注,并根據圖像的特征及標簽為圖像建立索引,以實現后期用戶的圖像檢索任務。
3.面向醫院監控視頻的智能分析
隨著視頻監控技術和
物聯網技術的發展,目前各個醫院安裝了大量攝像頭,尤其在住院病房,通過視頻監控可以對病人的異常行為、醫護人員的日常工作等進行實時監控。
傳統的視頻監控系統主要用于日常調度和事后取證,需要專人監控并分析監控畫面,成本高昂且效率低下。
近年來,面向醫院的智能視頻監控系統的研究、設計和實現已經引起了學術界和工業界的廣泛關注。2013年,美國CMU的CAREMEDIA項目,將智能視頻監控系統應用于監護中心,該系統可以自動識別醫護人員和患者的日常行為(如行走、交談、診斷、肢體沖突等),并對異常行為實時預警。
4.醫療大數據的數據治理體系
醫療大數據涉及的數據類型多樣,數據覆蓋面廣,服務用戶多樣,如何構建以病人、醫生、醫院和政府等多中心的數據治理體系,進而面向不同的用戶提供不同的數據視圖和分析結果,也是醫療大數據研究中的重要問題。
在現有醫院各類信息系統(HIS、PACS等)的基礎上,構建面向分析的數據環境是實現大數據分析的前提。一方面,從數據驅動出發,在數據層面上,實現面向主題(Subject-oriented)的數據組織、多個不同數據源的數據集成、反映醫療數據的時空變化的數據環境,是醫療大數據組織存儲的基本要求;另一方面,從平臺層面出發,需要利用云技術,構建新的運行環境,滿足海量數據的存儲要求。目前,國內在該方面的研究亟待加強。
5.醫療大數據的隱私保護技術
醫療數據中包含大量的患者個人的隱私信息,該數據的擴散性使用非常容易導致隱私信息的泄露,一旦發生數據隱私泄露,將損害患者人格和尊嚴,甚至給患者的健康或者生活帶來不良的影響。國內外針對醫療數據的隱私保護研究主要從法律和技術兩個方面展開。技術層面上,常用的有基于訪問控制的技術、基于匿名化的技術和基于數據加密的技術等。
近年來,隱私保護和隱私攻擊模型同步發展,對各類方法的有效性提出了嚴峻挑戰。近期以差分隱私保護為代表的新的研究方向,成為面向醫療信息發布的隱私保護方法的主流,該方法不關心攻擊者擁有多少背景知識,通過向查詢或者分析結果中添加適當噪音來達到隱私保護。
醫療大數據面臨的主要挑戰
目前,醫療大數據的研究和應用剛剛起步,眾多的研究仍然處于實驗階段,存在著一些挑戰。其中數據質量差和不確定度量是典型問題。
1.數據質量
目前醫療數據的來源主要為醫療機構(例如醫院、醫學藥學實驗室、醫療康復中心等)和互聯網。采集的數據范圍廣、維度高、類型種類繁多且不針對特定的問題。
首先,從數據量的角度來看,醫療行業的數據量與互聯網搜索及消費等行業PB級別的大數據仍有一定差距。即使公共衛生與醫療健康的數據量在不斷增長,然而由于目前國內十分缺乏醫療健康信息的合理接口,導致醫療數據的采集與應用嚴重脫節,醫療數據還未真正釋放潛能。另外,大數據的相關技術(例如NoSQL等),在短時間內不太可能進入到醫院的主流技術中。
其次,從數據質量的角度來看,醫療數據的采集由于缺乏統一的標準或標準未及時更新(例如醫院之間、科室之間標準不一等),以及采集人員的主觀錯誤或數據采集系統本身的設計問題,導致其中存在大量的不確定性。例如采集某感冒發燒患者的癥狀信息時,假設患者為感冒發燒狀態,在記錄患者狀態時,使用“發燒”和“體溫37.5°C”在語義上存在一定差異,這種語義信息差異會給最終的數據挖掘和模式分類模型帶來偏差。另外,統計獲得的數據分布很可能在其統計過程中被人為改變,而導致估計出的數據分布失真或者實際的數據分布根本無法獲得,導致最終的統計學習模型不可靠。
2.不確定性的度量問題
目前比較成熟且進入實用階段的大數據模型多數都是面向藥廠和保險公司的。美國的醫療大數據應用中,面向醫生和患者業務通常較難,很難找到合適的切入點。面向企業的業務相對容易,尤其是針對保險公司和藥廠,而醫院則相對難一些。由于大數據模型精度有限,在安全性要求極高的醫院和醫生中其實用價值非常有限,例如,一個95%準確度的模型對醫生來說可能仍然不夠精確,因為醫生在決策時是針對患者個體的,而不是基于統計意義的。
模型本身的誤差度量準則是否具有統計學理論的支持以及背后的統計學意義也值得商榷。在傳統的生物統計學中,如果基于完備的統計理論可以構造出準確刻畫模型的統計量,那么在很少的樣本量下,模型也可以達到很高的置信水平。在統計學習模型中,希望數據的規模較大,所以需要新的誤差度量準則。比如在決策樹中,使用基尼不純度(GiniImpurity)來判斷哪個特征對數據的區分度更大,最終獲得最簡單高效的分類或回歸決策樹,這里的基尼不純度和統計學中的AU-ROC和Mann-Whitney-U檢驗十分類似,但兩者之間細微的差別是否會導致在大規模數據集上的巨大偏差有待考量。
另外,統計學習模型的可解釋性也較差,往往只有統計學家和計算機科學家才能精確完整地解釋模型,而對于模型真正的使用者如醫生和政府官員等存在巨大的障礙。
醫療大數據的應用案列
下面,簡要介紹一下醫療大數據在計算流行病學和藥物學領域的研究進展。
1.醫療大數據在計算流行病學研究的進展
計算流行病學是從傳統流行病學延伸出來的利用數學方法、計算機模型的新型交叉學科,其目的主要是識別和控制疾病在人群中的時間與空間維度上的擴散、發展問題。
從研究內容來分,計算流行病學主要分為以下6個方面:①預測流行病的發病率;②識別流行病易感人群;③評估可獲得的干預方法;④估計干預方法可實施的概率;⑤從流行病發展、控制中學習經驗教訓;⑥促進公眾對流行病的認知。
除以上研究內容外,計算流行病學還關注研究疾病是否引起生理退化(例如阿爾茲海默綜合癥、輕度認知障礙、青光眼等),疾病是否發展且發展過程是否可控(例如青光眼、脂肪肝等),疾病是否可完全治愈或部分治愈(例如創傷性腦損傷、脂肪肝等),等等。
從研究目標來分,計算流行病學主要分為以下3個方面:①識別引發疾病的風險因子及抑制疾病的保護因子(如生活方式、用藥史、基因等);②干預措施對患者健康狀態的影響以及對疾病發展的控制情況;③疾病發展模式及其影響因素,患者健康狀態及其影響因素。
醫療大數據在計算流行病學研究中的成功應用很多。U.Niemann等通過隨機抽樣方法獲得縱向遺傳病樣本數據,共578例,學習分類和預測具體的特征因素變量引起脂肪肝的可能性。A.I.Rughani等基于入院記錄和物理檢查結果數據構建了30個帶負采樣的人工神經網絡模型來預測病人因創傷性腦損傷而入院后的生還概率。Z.F.Siddiqui等通過使用截面數據評價創傷性腦損傷病人在臨床治療后認知能力的恢復情況。
2.醫療大數據在藥物學研究的進展
藥物學是目前醫療大數據挖掘領域發展較為成熟的一個方向。在藥物學研究中有以下兩個問題目前最受關注。
(1)藥物安全學:藥物安全學是目前醫療大數據領域研究比較廣泛的一個方向。簡單來說就是從海量EMR數據中識別藥物不良反應(adversedrugreaction)和藥物相互作用(drug-druginteraction),來彌補因為樣本局限在臨床試驗中未能發現的藥物治療問題,最終目標是使藥廠制出療效更好的藥,醫生開出更安全合理的藥方。
一方面,藥物數據容易從醫學實驗室和藥廠獲得,且多為易理解和處理的結構化數據;另一方面,藥物制造背后巨大的商業利益驅使。在美國的科研機構、藥廠以及類似IBM這樣的技術公司都有大量專業人士從事與生物醫藥開發相關的工作。
(2)個性化藥事服務:個性化藥事服務是指根據一個人特有的生理狀況(如基因、器官結構等)、病理狀況(疾病發展周期、多疾病復合等)甚至心理狀況為患者量身定制一個合理且高效的醫療方案。
結語
隨著醫療信息化、醫療
物聯網和健康云的發展,醫療行業進入大數據時代。醫療大數據挖掘對于改進醫療診治服務、提升醫療效率、降低醫療成本、提高全民健康水平等提供重要的技術支撐。醫療大數據在數據分析和隱私保護等關鍵技術領域取得了長足的進展,但是在數據質量、不確定性問題等方面還面臨著眾多挑戰。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:醫療大數據的關鍵技術及其發展趨勢
本文網址:http://www.guhuozai8.cn/html/consultation/10839719531.html