1.介紹
在人工智能技術飛速發(fā)展的當下,基于人工智能方法的智慧醫(yī)療系統(tǒng)也逐漸吸引了大量研究人員的目光,計算機輔助的分診、診斷等應用可以一定程度地緩解部分地區(qū)的醫(yī)療條件緊張問題,同樣可以為醫(yī)生的決策提供輔助參考。在數(shù)字化醫(yī)療系統(tǒng)的普及下,與病患相關的醫(yī)療數(shù)據(jù),如電子醫(yī)療記錄、醫(yī)囑、生物化學檢測結果以及基因組信息也已經(jīng)基本實現(xiàn)電子化[1],因此,通過數(shù)據(jù)挖掘、深度學習等方法對上述電子化信息進行學習,進而得到患者與患者之間的相似程度,是實現(xiàn)疾病判斷、病情預測以及精準醫(yī)療(precision medicine)等應用的重要的前提條件,且上述過程也受啟發(fā)于實際臨床中醫(yī)生的診療過程。病患相似度度量方法的流程大致如圖1,首先根據(jù)患者的數(shù)據(jù)信息進行數(shù)據(jù)抽象化,并選擇合適算法與度量方法對抽象化結果進行相似度評估,進而將相似度結果應用于相應的下游任務中。

圖1 病患相似度分析工作的基本流程[3]
2.病患數(shù)據(jù)
病患相關數(shù)據(jù)是天然多模態(tài)(multi-modal)且異構(heterogeneous)的,可能涵蓋文本信息(如病歷)、圖像信息(如CT影像)、時序信號信息(如心電圖)和數(shù)值信息(如血常規(guī)檢查結果)等等,從病患相似度的歷史研究中所包括的類型來看,一般可將病患數(shù)據(jù)分為以下五類[2]:
臨床數(shù)據(jù) Clinical data
分子數(shù)據(jù) Molecular data
圖像與生物信號 Imaging and bio signals
實驗室結果 Lab results
病患所述結果 Patient-reported outcomes
臨床數(shù)據(jù)包括電子病歷信息、醫(yī)保數(shù)據(jù)等;分子數(shù)據(jù)包括DNA信息、蛋白質序列信息等;圖像與生物信號包括CT、MRI、心電圖等;實驗室結果包括血液檢測結果、核酸抗體檢測結果等;病患所述結果包括患者出院后的回訪信息以及相關口述信息等。從形式上看,病患數(shù)據(jù)等的醫(yī)學相關數(shù)據(jù)都屬于縱向數(shù)據(jù)(longitudinal data),即數(shù)據(jù)來源于不同個體在不同時間節(jié)點測得的數(shù)據(jù)。
根據(jù)以上信息可知,病患數(shù)據(jù)特征一般有著較多的維度,每維特征的采樣次數(shù)與分辨率有所不同,且數(shù)據(jù)完備程度也不一樣[3],因此病患數(shù)據(jù)中大多存在噪聲、異常數(shù)據(jù)以及數(shù)據(jù)缺失等問題。同時,由于患者在患病就醫(yī)后,病癥的減輕或加重都會導致患者的多次來訪和復檢,因此病患數(shù)據(jù)多為縱向數(shù)據(jù),即數(shù)據(jù)來源于每個個體在不同時間點上的觀測值[4]。
3.病患相似度度量相關數(shù)據(jù)
3.1 UCI 數(shù)據(jù)集[5]
UCI數(shù)據(jù)集是機器學習社區(qū)中使用率很高的領域豐富的數(shù)據(jù)集倉庫,其中也涵蓋與醫(yī)學健康相關的數(shù)據(jù)集,相關數(shù)據(jù)也為病患相似度度量工作的數(shù)據(jù)來源,包括帕金森氏癥數(shù)據(jù)集[6]、心臟病數(shù)據(jù)集[7]、糖尿病數(shù)據(jù)集[8]、癌癥數(shù)據(jù)集[9]等等。
3.2 ADNI數(shù)據(jù)集[10]
ADNI(Alzheimer‘s Disease Neuroimaging Initiative)是一個通過生物標記與臨床數(shù)據(jù)追蹤阿爾茲海默癥發(fā)展過程的縱向研究計劃,數(shù)據(jù)內容包括臨床診斷、生物樣本、藥物使用歷史、基因組數(shù)據(jù)以及腦補成像數(shù)據(jù),疾病的診斷工作每數(shù)月進行一次并持續(xù)數(shù)年,研究對象被分為三組,分別為正常對照組、中度認知障礙(MCI, Mild Cognitive Impairment)和阿爾茲海默癥患者(AD, Alzheimer’s Disease)。
3.3 SOF數(shù)據(jù)集[11]
SOF(Study of Osteoporotic Fracture)是一個長達二十余年的針對年長白人女性骨質疏松病癥的醫(yī)院來訪縱向研究,研究旨在分析高齡白人女性患骨質疏松的風險因素,研究對象被分為正常對照組、骨質減少(osteopenia)以及骨質疏松(osteoporosis)。
3.4 MIMIC數(shù)據(jù)集[12]
MIMIC-III(Medical Information Mart for Intensive Care III)是大規(guī)模的匿名化健康數(shù)據(jù)庫,包括了十余年間超過四千名患者在危重癥監(jiān)護病房的相關記錄,包括患者個人信息、生命體征監(jiān)測數(shù)據(jù)、實驗室監(jiān)測數(shù)據(jù)、圖像報告等多種病患數(shù)據(jù)信息。
3.5 ICD-9-CM 編碼集[13]
ICD-9-CM(The international classification of disease, ninth revision, clinical modification) 是在臨床中將診斷結果編碼表示的一種官方標準,包括疾病編碼列表,疾病類型分類以及手術、診斷、診療手段分類系統(tǒng)。
4.深度病患相似度學習[14]

圖2 患者數(shù)據(jù)樣例(橫軸為病患來訪醫(yī)院序列,縱軸為醫(yī)療事件對應的ICD9編碼)
Suo等人[14]于2018年在IEEE TRANSACTIONS ON NANOBIOSCIENCE上發(fā)表了一種基于深度學習的病患相似度學習方法,模型分為兩個模塊,分別是表示學習和相似度學習。病患數(shù)據(jù)是由代表醫(yī)療相關事件對應的ICD編碼形成的獨熱編碼矩陣,如圖2,每名患者對應一個矩陣,橫軸代表患者來訪醫(yī)院的時間序列,縱軸為醫(yī)療事件對應的ICD9編碼,若患者患有疾病或有相關癥狀,則矩陣對應位置為1。在表示學習中,作者通過全連接層將患者的高維稀疏獨熱向量矩陣映射到低維稠密空間,并依托卷積神經(jīng)網(wǎng)絡捕捉病患信息的連續(xù)的時序特征;對于相似度學習,作者使用基于softmax的有監(jiān)督分類方法并通過triplet loss使每兩個患者對相似的患者距離更近而不相似的患者距離更遠,以此在患者聚類任務上實現(xiàn)較好的效果。

圖3 模型結構
5.病患相似度度量的可解釋性
在各種病患相似度度量方法被初步探索后,在真實的使用場景下,醫(yī)療相關從業(yè)人員在關注模型的性能的同時,更加關注模型輸出結果過程中的透明度和可解釋性。Huai等人[15]因此在BIBM 2020提出了一種為所學習到的病患相似度模型行為提供全局解釋的模型無關的方法。一般來說,病患相似度的研究工作可能包括數(shù)十種特征,作者認為通過篩選選擇眾多特征中數(shù)量最少且足以解釋模型判斷結果的特征子集作為解釋模型判斷的依據(jù)可以很好地為實際場景下的相關人員提供參考。對于數(shù)據(jù)集中的患者個體,每兩個患者間即可計算一次相似度,相似度結果一般為相似或相異,而當隨機減少數(shù)據(jù)集中的特征數(shù)量后重新計算每兩個患者間的相似度,結果會產(chǎn)生一定的變化,而通過量化評估這一變化即可評價去除的特征的重要性,并以此作為該特征在度量病患間相似度時的貢獻程度。
6.病患數(shù)據(jù)安全
在數(shù)據(jù)驅動的病患相似度度量方法不斷發(fā)展的同時,方法背后所使用數(shù)據(jù)的安全性也逐漸成為了患者、醫(yī)療機構以及相關監(jiān)管部門關心的話題,同時很多醫(yī)療機構出于對患者個人信息的保護,不愿將敏感的醫(yī)療相關數(shù)據(jù)對研究人員開放,在這種背景下,在不訪問所有人數(shù)據(jù)的前提下進行模型學習成為了解決這一數(shù)據(jù)安全問題的前提。Huai等人[16]在SDM 2018上,在提出不相關特征提取模型的前提下,還考慮了上述數(shù)據(jù)安全問題,進而提出了分布式病患相似度度量模型,即分布在不同地點的數(shù)據(jù)在進行度量模型學習時,只將學習得到的參數(shù)上傳學習器,而學習器通過對全局參數(shù)進行優(yōu)化迭代將結果回傳至每個節(jié)點進行迭代直至全局收斂。Xu等人[17]在AAAI 2019的工作中將聯(lián)邦學習(Federated Learning)方法引入病患相似度度量工作,實現(xiàn)在數(shù)據(jù)本地保存的同時完成模型的訓練,并通過最小化相似度留存損失以及異質信息損失進而同時保留同類與異類數(shù)據(jù)間的關系。
編輯:lyn
-
人工智能
+關注
關注
1813文章
49774瀏覽量
261816 -
數(shù)據(jù)挖掘
+關注
關注
1文章
406瀏覽量
24979 -
深度學習
+關注
關注
73文章
5591瀏覽量
123947
原文標題:【賽爾筆記】病患相似度度量簡述
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
成都華微出席人工智能技術創(chuàng)新能力供需對接活動
微軟與新思科技分享智能體人工智能技術的行業(yè)影響
航天宏圖人工智能技術深度賦能社會治理現(xiàn)代化
重磅來襲!2026全球人工智能終端展暨第七屆深圳人工智能展覽會
中科創(chuàng)達旗下創(chuàng)通聯(lián)達即將舉辦RUBIK Pi 3端側人工智能技術巡演
挖到寶了!人工智能綜合實驗箱,高校新工科的寶藏神器
挖到寶了!比鄰星人工智能綜合實驗箱,高校新工科的寶藏神器!
人工智能技術的現(xiàn)狀與未來發(fā)展趨勢
CES Asia 2025同期低空智能感知與空域管理技術論壇即將啟幕
最新人工智能硬件培訓AI 基礎入門學習課程參考2025版(大模型篇)
中科曙光亮相2025全球人工智能技術大會
傳統(tǒng)工廠如何利用人工智能技術實現(xiàn)運籌優(yōu)化與效率提升
智慧路燈如何應用人工智能技術
Stellantis與Mistral AI深化人工智能合作
人工智能推理及神經(jīng)處理的未來

基于人工智能技術對疾病的判斷與預測及醫(yī)治
評論