全基因組測序領(lǐng)域的進(jìn)步已經(jīng)點燃了數(shù)字生物學(xué)的革命。
隨著新一代高通量測序成本的下降,基因組學(xué)項目正在世界各地展開。
無論是對患有罕見疾病的危重病人進(jìn)行測序,還是大規(guī)模人群的遺傳學(xué)研究,全基因組測序正在成為臨床工作流程和藥物研發(fā)的重要一環(huán)。
但基因組測序只是第一步?;蚪M測序數(shù)據(jù)分析需要通過加速計算、數(shù)據(jù)科學(xué)和 AI 來讀取和理解基因組。隨著摩爾定律(集成電路中的晶體管數(shù)量每兩年增加一倍)的終結(jié),人們需要新的計算方法來降低數(shù)據(jù)分析的成本、提高讀取的吞吐量和準(zhǔn)確性并最終釋放人類基因組的全部潛力。
生物信息學(xué)數(shù)據(jù)的爆發(fā)
一個人的全基因組測序會產(chǎn)生約 100GB 的原始數(shù)據(jù)。而在使用如深度學(xué)習(xí)和自然語言處理這類復(fù)雜的算法和應(yīng)用對基因組進(jìn)行測序后,這個數(shù)字會增加一倍以上。
伴隨著人類基因組測序成本的不斷降低,測序數(shù)據(jù)量呈現(xiàn)指數(shù)級增長。
據(jù)估計,全人類基因組存儲的數(shù)據(jù)量將在 2025 年達(dá)到 40EB,這比存儲人類從古至今說過的每一個字所需要的存儲空間還高出 8 倍。
許多基因組分析流程正在竭力應(yīng)對不斷產(chǎn)生的大量原始數(shù)據(jù)。
加速基因組測序分析流程
測序分析十分復(fù)雜且需要耗費(fèi)大量算力,并且還需要許多步驟來檢測人類基因組中的遺傳變異。
深度學(xué)習(xí)對于使用基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)的模型在基因組儀器內(nèi)進(jìn)行堿基檢測變得越來越重要。神經(jīng)網(wǎng)絡(luò)解讀儀器產(chǎn)生的圖像和信號數(shù)據(jù)并對人類基因組的 30 億個核苷酸對進(jìn)行推斷。這在提高讀取準(zhǔn)確性的同時確保堿基檢測更加實時,進(jìn)一步加快了從樣本到變異檢測格式(VCF)再到最終報告的整個基因組分析流程。
在基因組二次分析中,比對技術(shù)運(yùn)用參考基因組來協(xié)助重新拼接 DNA 片段測序后的基因組。
領(lǐng)先的比對算法 BWA-MEM 能夠幫助研究人員迅速將 DNA 序列讀取結(jié)果映射到參考基因組上。另一種用于 RNA-seq 數(shù)據(jù)的黃金標(biāo)準(zhǔn)比對算法 STAR 可通過準(zhǔn)確、極速的比對來更好地理解基因表達(dá)。
動態(tài)規(guī)劃算法 Smith-Waterman 也被廣泛用于比對,在包含一個動態(tài)規(guī)劃加速器的 NVIDIA H100 Tensor Core GPU 上,比對步驟加快了 35 倍。
發(fā)現(xiàn)遺傳變異
測序項目最關(guān)鍵的階段之一是變異檢測,例如單核苷酸變化、小規(guī)模插刪或復(fù)雜重排。研究人員將在這個階段檢測病人樣本和參考基因組之間的差異。這有助于臨床醫(yī)生確定危重病人可能患有的遺傳疾病,或幫助研究人員在整個人群中發(fā)現(xiàn)新的藥物靶標(biāo)。
經(jīng) GPU 優(yōu)化和加速的檢測工具,如博德研究所的 GATK(用于生殖系變異檢測的基因組分析工具套件),可以加快分析速度。為了幫助研究人員排除 GATK 結(jié)果中的假陽結(jié)果,NVIDIA 與博德研究所聯(lián)合推出了一款利用 CNN 過濾變異的深度學(xué)習(xí)工具 NVScoreVariants。
基于深度學(xué)習(xí)的變異檢測工具,如谷歌的 DeepVariant,可在無需單獨過濾步驟的情況下,提高檢測的準(zhǔn)確率。DeepVariant 使用 CNN 架構(gòu)檢測變異,通過各基因組平臺輸出結(jié)果的反復(fù)微調(diào)訓(xùn)練提高檢測的準(zhǔn)確性。
NVIDIA Clara Parabricks 工具套件中的二次分析軟件將這些變異檢測工具的速度提高了 80 倍。例如在基于 CPU 的環(huán)境中使用 GPU 加速的 Clara Parabricks 可以將 HaplotypeCaller 的運(yùn)行時間從 16 小時減少到 5 分鐘以內(nèi)。
加速新一輪基因組學(xué)浪潮
通過為短讀和長讀測序平臺提供加速的 AI 堿基檢測和變異檢測,NVIDIA 正在幫助推動下一波基因組學(xué)的發(fā)展浪潮。行業(yè)領(lǐng)導(dǎo)者和初創(chuàng)企業(yè)正在與 NVIDIA 一起助力全基因組測序領(lǐng)域的突破。
例如,生物技術(shù)公司 PacBio 最近發(fā)布了一款采用 NVIDIA Tensor Core GPU 的新型長讀長測序系統(tǒng)——Revio。與之前的系統(tǒng)相比,Revio 的算力提高了 20 倍,旨在以低于 1000 美元的成本對人類基因組進(jìn)行大規(guī)模的高精度長讀測序。
牛津納米孔科技有限公司提供了業(yè)內(nèi)僅有的一個單一技術(shù),能夠?qū)θ魏伍L度的 DNA 或 RNA 片段進(jìn)行實時測序,使研究人員能夠迅速發(fā)現(xiàn)更多遺傳變異。西雅圖兒童醫(yī)院最近使用高通量納米孔測序儀 PromethION 在新生兒出生后的幾小時內(nèi)檢測遺傳性疾病。
Ultima Genomics 正在提供每個樣本只需 100 美元的高通量全基因組測序。Singular Genomics 的 G4 測序儀是目前最強(qiáng)大的臺式測序系統(tǒng)。
掃描海報二維碼,或點擊“閱讀原文”,即可觀看 NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛 GTC23 主題演講重播!
-
英偉達(dá)
+關(guān)注
關(guān)注
23文章
4089瀏覽量
99231
原文標(biāo)題:人工智能如何改變基因組學(xué)?
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
開發(fā)智能體配置-內(nèi)容合規(guī)
第十二屆全國功能基因組學(xué)高峰論壇在京舉辦:聚焦人工智能與多組學(xué)融合發(fā)展
一文了解Mojo編程語言
利用超微型 Neuton ML 模型解鎖 SoC 邊緣人工智能
挖到寶了!人工智能綜合實驗箱,高校新工科的寶藏神器
挖到寶了!比鄰星人工智能綜合實驗箱,高校新工科的寶藏神器!
迅為RK3588開發(fā)板Linux安卓麒麟瑞芯微國產(chǎn)工業(yè)AI人工智能
最新人工智能硬件培訓(xùn)AI 基礎(chǔ)入門學(xué)習(xí)課程參考2025版(大模型篇)
中科曙光構(gòu)建全國產(chǎn)化基因組學(xué)高性能計算平臺
人工智能正在改變世界
人工智能是做什么的
人工智能如何改變基因組學(xué)?
評論