?
算法的演進、算力的提升、數(shù)據(jù)的持續(xù)擴展,是當今醫(yī)學領域人工智能 (Artificial Intelligence,AI) 應用落地與發(fā)展,特別是在精準診療與醫(yī)療科研中開展實踐的重要基石。這三者中,數(shù)據(jù)尤為關鍵,其價值不僅僅在于體量,更重在維度和來源,因此醫(yī)療科研所需的高質量AI模型構建,通常都離不開多方和多維數(shù)據(jù)的協(xié)同參與。
然而,此前該領域一直被數(shù)據(jù)隱私保護和信息風險防控要求所制約,各方數(shù)據(jù)多以數(shù)據(jù)孤島的型態(tài)存在,多方數(shù)據(jù)協(xié)同很難實現(xiàn)。為了更好地挖掘多方和多維數(shù)據(jù)中的巨大價值,同時更好地兼顧到其隱私和安全的防護,中國醫(yī)療智能行業(yè)頭部企業(yè)醫(yī)渡科技旗下醫(yī)渡云開始著手研發(fā)更為安全和高效的多方安全計算解決方案,包括與英特爾開展深入合作,利用英特爾 軟件防護擴展 (Intel Software Guard Extensions,以下簡稱英特爾 SGX) 技術的優(yōu)勢,為新方案導入基于硬件可信執(zhí)行環(huán)境 (Trusted Execution Environment,TEE) 的聯(lián)邦學習方法,為醫(yī)療科研中參與多方計算的敏感數(shù)據(jù)和代碼提供更為可靠的安全防護。
客戶引言
“臨床醫(yī)學離不開真實世界的研究,而真實世界研究依賴高質量數(shù)據(jù)。我們正通過構建更為安全和高效的多方安全計算解決方案,讓更多高質量數(shù)據(jù)被充分利用,成為推動醫(yī)療科研事業(yè)高速發(fā)展的助力。為合法合規(guī)地打破因數(shù)據(jù)安全要求引發(fā)的‘數(shù)據(jù)孤島’問題,我們與英特爾一起,結合其SGX技術構建了聯(lián)邦學習方法所需的硬件可信執(zhí)行環(huán)境,讓不同醫(yī)療機構的數(shù)據(jù)協(xié)同實現(xiàn)‘更安全+更高效’的雙重優(yōu)勢?!?/p>
—— 閆峻博士,首席AI科學家,醫(yī)渡云
背景與挑戰(zhàn):
醫(yī)療科研亟需更好的數(shù)據(jù)融合與價值挖掘
1
不過,醫(yī)療科研畢竟是一個細分化的、復雜的、系統(tǒng)化的領域,盡管各個醫(yī)療科研機構自身都有大量的數(shù)據(jù)資產(chǎn),但在體量和維度上仍有較大的差別,這對科研效率會有實質性的影響。畢竟,數(shù)據(jù)集的體量越大、維度越豐富,能夠從中發(fā)現(xiàn)和學習到的特征就越多,基于此構建的AI模型的性能及應用價值也就越高。大量統(tǒng)計數(shù)據(jù)已表明,多中心研究機構的醫(yī)療科研效率往往會優(yōu)于單中心機構,關鍵就在于多中心機構能借助多方數(shù)據(jù)的融合與協(xié)作,在數(shù)據(jù)體量及維度上實現(xiàn)更大優(yōu)勢,進而也能對數(shù)據(jù)中的價值進行更為深入和全面的挖掘和利用。因此,醫(yī)療科研機構普遍期望能開展多方及多樣化的數(shù)據(jù)協(xié)作。如圖一所示,多中心數(shù)據(jù)融合可為醫(yī)療科研帶來以下關鍵優(yōu)勢:
消除或降低數(shù)據(jù)偏差:研究區(qū)域以及方法、方式的差異,會帶來不同研究中心間的數(shù)據(jù)差異,通過數(shù)據(jù)融合,能消除或降低數(shù)據(jù)偏差,使研究成果泛化能力更強;
擴大科研樣本量:數(shù)據(jù)融合能夠讓不同研究中心間的臨床數(shù)據(jù)得以共享,擴大科研所需的數(shù)據(jù)樣本量,提升最終AI模型的性能;
補充非臨床數(shù)據(jù):許多長期跟蹤的醫(yī)療科研數(shù)據(jù)還需要對社區(qū)醫(yī)療、家庭醫(yī)生、體檢機構以及可穿戴設備的數(shù)據(jù)實施融合。
圖一 多中心數(shù)據(jù)融合帶來的醫(yī)療科研優(yōu)勢
雖然多方數(shù)據(jù)協(xié)同好處多多,但在實踐中這種融合和協(xié)同帶來的數(shù)據(jù)安全問題也越來越受關注,在國家政策層面,中國已出臺《個人信息保護法》、《數(shù)據(jù)安全法》等一系列法律法規(guī)來對數(shù)據(jù)安全和隱私信息予以保護。為此,醫(yī)療科研機構采取了一系列方法來規(guī)避風險,包括采用長鏈條的數(shù)據(jù)協(xié)同審批流程,以人工方式進行數(shù)據(jù)錄入、轉錄等。但這些方法不僅耗時長、效率低,還缺乏質控且難以溯源,帶來了嚴重的數(shù)據(jù)孤島問題。
在這種矛盾的現(xiàn)實狀況下,如何合法合規(guī)地解決數(shù)據(jù)孤島問題,讓醫(yī)療數(shù)據(jù)在融合的同時也能滿足隱私保護和科研應用的雙重需求,以及有望兼顧這兩個需求的多方隱私計算技術,就成為了眾多醫(yī)療科研機構關注的焦點。
不同于其它領域,醫(yī)療科研對基于多方隱私計算技術的數(shù)據(jù)融合有一些特定的需求,如圖二所示,這些需求涉及:
數(shù)據(jù)敏感度:醫(yī)療科研場景下的數(shù)據(jù)敏感度很高,“醫(yī)療數(shù)據(jù)不出院”的需求非常強烈,因而在參與各方之間建立信任也非常困難;
數(shù)據(jù)融合標準化:醫(yī)療科研對數(shù)據(jù)的高質量要求,使之非常依賴數(shù)據(jù)治理。各個進行中的研究項目可能需要反復的調整納排條件后,再進行全局性的安全聚合計算;
計算需求:醫(yī)療科研基于多方隱私計算技術的AI建模通常有著明顯的行業(yè)特點,因此AI建模時對計算性能也有很高的要求。
圖二 醫(yī)療科研領域數(shù)據(jù)融合需求的特征
為幫助眾多醫(yī)療科研機構打造兼顧高效和安全需求的多方隱私計算能力,為醫(yī)療和健康行業(yè)提供更優(yōu)的數(shù)據(jù)融合與數(shù)據(jù)科研價值挖掘能力,多年來一直深耕醫(yī)療AI與大數(shù)據(jù)技術創(chuàng)新的醫(yī)渡云,以強大的醫(yī)學數(shù)據(jù)治理能力為后盾,通過自研 YiduManda 安全計算引擎為數(shù)據(jù)融合提供了聯(lián)邦學習、聯(lián)合統(tǒng)計、聯(lián)盟區(qū)塊鏈等核心技術保障。
這其中,采用TEE方案的聯(lián)邦學習方法憑其在數(shù)據(jù)“可用而不可見”方面的獨到優(yōu)勢,在各醫(yī)療科研機構的實踐中收獲了良好效果。與其他多方隱私計算方案相比,采用TEE方案的聯(lián)邦學習方法具有以下優(yōu)勢:
醫(yī)療數(shù)據(jù)不脫離本地,各參與方可利用自身擁有的數(shù)據(jù)訓練全局模型;
每個醫(yī)療科研參與方都可參與訓練過程,模型損失可控;
訓練過程能更好地兼顧隱私和安全需求,各參與方能在不暴露數(shù)據(jù)及加密形態(tài)的前提下進行聯(lián)合建模。
基于英特爾 SGX,
以聯(lián)邦學習方法構建高效多方安全計算解決方案
醫(yī)渡云基于聯(lián)邦學習等隱私計算方法打造的多方安全計算解決方案,其功能層面如圖三所示,自下而上分別是面向院內外業(yè)務系統(tǒng)的數(shù)據(jù)采集系統(tǒng)、進行數(shù)據(jù)加工治理的專病庫以及開展多方隱私計算的安全計算平臺。在安全計算平臺之上,醫(yī)渡云又通過多中心醫(yī)學研究全場景解決方案,部署了一系列面向多樣化醫(yī)療科研場景所需的上層應用能力,如臨床研究開展、藥械試驗與研究、診療技術開放推廣、患者隨訪與管理等。
圖三 醫(yī)渡云多方安全計算解決方案整體架構
具體來說,方案中各層的功能和作用分別為:
數(shù)據(jù)采集系統(tǒng):醫(yī)療科研機構開展臨床研究所需的數(shù)據(jù)一般來自于研究機構的臨床數(shù)據(jù)中心、隨訪中心、生物樣本庫以及生物信息中心;
專病庫:采集后的數(shù)據(jù)需要執(zhí)行同步、脫敏、映射等數(shù)據(jù)匯聚過程以及歸一標準化、結構化等數(shù)據(jù)深加工過程。完備的數(shù)據(jù)加工治理流程,能幫助醫(yī)療科研機構按照研究目標,把各個科研參與方(醫(yī)院或醫(yī)療機構)的多元異構數(shù)據(jù)轉換成統(tǒng)一格式的高質量數(shù)據(jù),通過數(shù)據(jù)抽取后建立滿足研究所需的專病數(shù)據(jù)庫;
多方安全計算平臺:醫(yī)渡云自研的YiduManda以多方安全計算、聯(lián)邦學習為基礎,同時結合英特爾 SGX 將來自各個科研參與方(醫(yī)院)的原始數(shù)據(jù),通過聯(lián)合統(tǒng)計、特性工程(Feature Engining)、邏輯回歸(Logistic Regression,LR)、XGBoost 等方法進行聯(lián)合統(tǒng)計分析和模型訓練,并最終得到醫(yī)療科研AI模型以及相關深度學習模型。
在架構設計上,醫(yī)渡云的方案采用了分布式的設計,可分為平臺端(調度節(jié)點)和醫(yī)院端(計算節(jié)點),其中:
平臺端(調度節(jié)點):部署在互聯(lián)網(wǎng)數(shù)據(jù)中心或機構聯(lián)盟的主中心私有云環(huán)境中,包括一套用于聯(lián)邦學習等隱私計算的調度層框架以及相應的科研應用平臺。應用層框架對各醫(yī)院端隱私計算節(jié)點進行統(tǒng)一的管理和協(xié)調,并對多方安全計算的任務進行統(tǒng)一調度;
醫(yī)院端(計算節(jié)點):部署在醫(yī)院的私有云環(huán)境中,通過隱私計算節(jié)點間的協(xié)作,能保證數(shù)據(jù)在不出醫(yī)院的前提下完成聯(lián)邦學習等多方隱私計算過程,各個節(jié)點對其所有的數(shù)據(jù)有絕對控制權,所有數(shù)據(jù)調用經(jīng)過多方安全計算框架可審計。
圖四 醫(yī)渡云多方安全計算解決方案中醫(yī)院端和平臺端的協(xié)作模式
基于上述功能與架構設計,各醫(yī)療科研機構之間開展基于聯(lián)邦學習的模型協(xié)同訓練的過程如圖五所示,數(shù)據(jù)準備階段是在各個參與協(xié)同訓練的醫(yī)院或醫(yī)療機構本地完成的,準備好的數(shù)據(jù)通過程序接口加載到醫(yī)院端中,隨后平臺端會調度完成模型的協(xié)同訓練過程。參與訓練的醫(yī)院端通過加密信道與其它參與方完成通信和計算,并最后完成模型的優(yōu)化訓練。
圖五 基于聯(lián)邦學習的模型訓練
在方案的具體部署中,醫(yī)渡云引入了英特爾 SGX 來構建基于TEE的聯(lián)邦學習方法所需的硬件可信環(huán)境。英特爾 SGX 能在內存的特定硬件環(huán)境中構造出一個可信的安全“飛地”(Enclave),為醫(yī)療科研過程中參與多方計算的敏感數(shù)據(jù)和代碼提供更強的安全防護。
如圖六所示,與其它技術方案相比,英特爾 SGX 一方面為敏感數(shù)據(jù)與程序構建了隔離的硬件環(huán)境,使安全保護機制獨立于軟件應用、操作系統(tǒng)或硬件配置之外,從而令保密性和完整性大幅提升;另一方面,獨立的“飛地”設置可讓關鍵的應用程序和數(shù)據(jù)更有效地避開來自硬件驅動程序、虛擬機乃至操作系統(tǒng)的攻擊,帶來更強的安全性。基于英特爾 SGX 提供的這些優(yōu)勢,各醫(yī)療科研機構就可將數(shù)據(jù)分析、模型訓練及推理所涉及的數(shù)據(jù)運行在“飛地”中,通過訪問控制為這些應用代碼和數(shù)據(jù)提供更可信賴的安全保障。
圖六 英特爾 SGX技術實際作用示意圖
在性能表現(xiàn)上,英特爾 SGX 基于硬件層面的安全保護機制,可使敏感數(shù)據(jù)與應用程序獲得來自基于英特爾 架構的處理器強勁性能的加速或助推,從而更好地解決方案中性能和安全的平衡問題,在某些對計算性能和安全等級要求都很高的醫(yī)療科研場景中輸出更為全面的應用優(yōu)勢。
2021年發(fā)布的面向單路和雙路服務器的第三代英特爾 至強 可擴展處理器,已集成了英特爾 SGX,并為此提供了更優(yōu)的支持,其高端型號最高可在雙路系統(tǒng)中支持1TB容量的保留加密內存區(qū)域(Enclave Page Cache,EPC),這對于醫(yī)療科研機構進一步擴展AI模型訓練與推理的數(shù)據(jù)規(guī)模至關重要,因此該處理器在醫(yī)渡云多方安全計算解決方案中也扮演了關鍵角色。當然,除了集成SGX技術外,該處理器對內核微架構、I/O、內存性能及容量的改進和提升,及其內置的英特爾 高級矢量擴展 512 (英特爾 AVX-512)和英特爾 深度學習加速(英特爾 DL Boost)技術對AI應用的硬件加速能力,也為方案涉及的復雜計算需求提供了有力支撐。
落地及展望
得益于服務全國800多家醫(yī)療機構,覆蓋60個疾病領域所積累的深厚經(jīng)驗,醫(yī)渡云可以為面向醫(yī)療科研領域的多方安全計算解決方案帶來專業(yè)的方案設計2,而第三代英特爾 至強 可擴展處理器不僅為方案帶來了數(shù)據(jù)處理所需的強勁算力,其內置的英特爾 SGX 也為方案提供了更可靠的數(shù)據(jù)安全防護,使用英特爾 SGX 構建的基于TEE的聯(lián)邦學習方法,為多方數(shù)據(jù)安全、高效的聯(lián)合建模打造了更為可信的硬件環(huán)境。在面向醫(yī)療科研領域的實踐中,醫(yī)渡云已經(jīng)支持多家醫(yī)院和醫(yī)療科研機構開展了一系列基于多方安全計算解決方案的聯(lián)合研究項目。
綜合以上優(yōu)勢,醫(yī)渡云目前已通過了中國信息通信研究院在隱私保護計算技術上的兩項認證,分別為《基于多方安全計算的數(shù)據(jù)流通產(chǎn)品技術要求與測試方法》與《基于聯(lián)邦學習的數(shù)據(jù)流通產(chǎn)品技術要求與測試方法》3。
隨著采用英特爾 SGX 的多方安全計算解決方案得到越來越多的客戶認可,醫(yī)渡云已計劃將該方案作為未來核心產(chǎn)品的一個基礎組件來提供默認的隱私計算能力,并根據(jù)用戶需求提供服務。
面向未來,醫(yī)渡云也將繼續(xù)攜手英特爾,針對多方安全計算中的多中心臨床研究解決方案開展更為深入的合作,這些合作包括:將英特爾 SGX 及相關技術和框架用作其整體隱私計算解決方案中的重要選項,借助該技術在安全特性和性能上的雙重優(yōu)勢,為那些對計算性能要求較高的場景提供更優(yōu)的支持,并在單中心內部的隱私保護、跨中心聯(lián)邦學習等更多場景中探索英特爾 SGX 的運用。當然,這些合作的目標都是一致的,即為醫(yī)療科研事業(yè)的發(fā)展提供源源不斷的技術助力和數(shù)據(jù)積累。
評論