AI 和加速計(jì)算正在為基因組測(cè)序流程開辟新的可能性。
全基因組測(cè)序領(lǐng)域的進(jìn)步已經(jīng)點(diǎn)燃了數(shù)字生物學(xué)的革命。
隨著新一代高通量測(cè)序成本的下降,基因組學(xué)項(xiàng)目正在世界各地展開。
無(wú)論是對(duì)患有罕見(jiàn)疾病的危重病人進(jìn)行測(cè)序,還是大規(guī)模人群的遺傳學(xué)研究,全基因組測(cè)序正在成為臨床工作流程和藥物研發(fā)的重要一環(huán)。
但基因組測(cè)序只是第一步。基因組測(cè)序數(shù)據(jù)分析需要通過(guò)加速計(jì)算、數(shù)據(jù)科學(xué)和 AI 來(lái)讀取和理解基因組。隨著摩爾定律(集成電路中的晶體管數(shù)量每?jī)赡暝黾右槐叮┑慕K結(jié),人們需要新的計(jì)算方法來(lái)降低數(shù)據(jù)分析的成本、提高讀取的吞吐量和準(zhǔn)確性并最終釋放人類基因組的全部潛力。
生物信息學(xué)數(shù)據(jù)的爆發(fā)
一個(gè)人的全基因組測(cè)序會(huì)產(chǎn)生約 100GB 的原始數(shù)據(jù)。而在使用如深度學(xué)習(xí)和自然語(yǔ)言處理這類復(fù)雜的算法和應(yīng)用對(duì)基因組進(jìn)行測(cè)序后,這個(gè)數(shù)字會(huì)增加一倍以上。
伴隨著人類基因組測(cè)序成本的不斷降低,測(cè)序數(shù)據(jù)量呈現(xiàn)指數(shù)級(jí)增長(zhǎng)。
據(jù)估計(jì),全人類基因組存儲(chǔ)的數(shù)據(jù)量將在 2025 年達(dá)到 40EB,這比存儲(chǔ)人類從古至今說(shuō)過(guò)的每一個(gè)字所需要的存儲(chǔ)空間還高出 8 倍。
許多基因組分析流程正在竭力應(yīng)對(duì)不斷產(chǎn)生的大量原始數(shù)據(jù)。
加速基因組測(cè)序分析流程
測(cè)序分析十分復(fù)雜且需要耗費(fèi)大量算力,并且還需要許多步驟來(lái)檢測(cè)人類基因組中的遺傳變異。
深度學(xué)習(xí)對(duì)于使用基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)的模型在基因組儀器內(nèi)進(jìn)行堿基檢測(cè)變得越來(lái)越重要。神經(jīng)網(wǎng)絡(luò)解讀儀器產(chǎn)生的圖像和信號(hào)數(shù)據(jù)并對(duì)人類基因組的 30 億個(gè)核苷酸對(duì)進(jìn)行推斷。這在提高讀取準(zhǔn)確性的同時(shí)確保堿基檢測(cè)更加實(shí)時(shí),進(jìn)一步加快了從樣本到變異檢測(cè)格式(VCF)再到最終報(bào)告的整個(gè)基因組分析流程。
在基因組二次分析中,比對(duì)技術(shù)運(yùn)用參考基因組來(lái)協(xié)助重新拼接 DNA 片段測(cè)序后的基因組。
領(lǐng)先的比對(duì)算法 BWA-MEM 能夠幫助研究人員迅速將 DNA 序列讀取結(jié)果映射到參考基因組上。另一種用于 RNA-seq 數(shù)據(jù)的黃金標(biāo)準(zhǔn)比對(duì)算法 STAR 可通過(guò)準(zhǔn)確、極速的比對(duì)來(lái)更好地理解基因表達(dá)。
動(dòng)態(tài)規(guī)劃算法 Smith-Waterman 也被廣泛用于比對(duì),在包含一個(gè)動(dòng)態(tài)規(guī)劃加速器的 NVIDIA H100 Tensor Core GPU 上,比對(duì)步驟加快了 35 倍。
發(fā)現(xiàn)遺傳變異
測(cè)序項(xiàng)目最關(guān)鍵的階段之一是變異檢測(cè),例如單核苷酸變化、小規(guī)模插刪或復(fù)雜重排。研究人員將在這個(gè)階段檢測(cè)病人樣本和參考基因組之間的差異。這有助于臨床醫(yī)生確定危重病人可能患有的遺傳疾病,或幫助研究人員在整個(gè)人群中發(fā)現(xiàn)新的藥物靶標(biāo)。
經(jīng) GPU 優(yōu)化和加速的檢測(cè)工具,如博德研究所的 GATK(用于生殖系變異檢測(cè)的基因組分析工具套件),可以加快分析速度。為了幫助研究人員排除 GATK 結(jié)果中的假陽(yáng)結(jié)果,NVIDIA 與博德研究所聯(lián)合推出了一款利用 CNN 過(guò)濾變異的深度學(xué)習(xí)工具 NVScoreVariants。
基于深度學(xué)習(xí)的變異檢測(cè)工具,如谷歌的 DeepVariant,可在無(wú)需單獨(dú)過(guò)濾步驟的情況下,提高檢測(cè)的準(zhǔn)確率。DeepVariant 使用 CNN 架構(gòu)檢測(cè)變異,通過(guò)各基因組平臺(tái)輸出結(jié)果的反復(fù)微調(diào)訓(xùn)練提高檢測(cè)的準(zhǔn)確性。
NVIDIA Clara Parabricks 工具套件中的二次分析軟件將這些變異檢測(cè)工具的速度提高了 80 倍。例如在基于 CPU 的環(huán)境中使用 GPU 加速的 Clara Parabricks 可以將 HaplotypeCaller 的運(yùn)行時(shí)間從 16 小時(shí)減少到 5 分鐘以內(nèi)。
加速新一輪基因組學(xué)浪潮
通過(guò)為短讀和長(zhǎng)讀測(cè)序平臺(tái)提供加速的 AI 堿基檢測(cè)和變異檢測(cè),NVIDIA 正在幫助推動(dòng)下一波基因組學(xué)的發(fā)展浪潮。行業(yè)領(lǐng)導(dǎo)者和初創(chuàng)企業(yè)正在與 NVIDIA 一起助力全基因組測(cè)序領(lǐng)域的突破。
例如,生物技術(shù)公司 PacBio 最近發(fā)布了一款采用 NVIDIA Tensor Core GPU 的新型長(zhǎng)讀長(zhǎng)測(cè)序系統(tǒng)——Revio。與之前的系統(tǒng)相比,Revio 的算力提高了 20 倍,旨在以低于 1000 美元的成本對(duì)人類基因組進(jìn)行大規(guī)模的高精度長(zhǎng)讀測(cè)序。
牛津納米孔科技有限公司提供了業(yè)內(nèi)僅有的一個(gè)單一技術(shù),能夠?qū)θ魏伍L(zhǎng)度的 DNA 或 RNA 片段進(jìn)行實(shí)時(shí)測(cè)序,使研究人員能夠迅速發(fā)現(xiàn)更多遺傳變異。西雅圖兒童醫(yī)院最近使用高通量納米孔測(cè)序儀 PromethION 在新生兒出生后的幾小時(shí)內(nèi)檢測(cè)遺傳性疾病。
Ultima Genomics 正在提供每個(gè)樣本只需 100 美元的高通量全基因組測(cè)序。Singular Genomics 的 G4 測(cè)序儀是目前最強(qiáng)大的臺(tái)式測(cè)序系統(tǒng)。
掃描海報(bào)二維碼,或點(diǎn)擊“閱讀原文”,即可觀看 NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛 GTC23 主題演講重播!
-
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3953瀏覽量
93830
原文標(biāo)題:人工智能如何改變基因組學(xué)?
文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
中科曙光構(gòu)建全國(guó)產(chǎn)化基因組學(xué)高性能計(jì)算平臺(tái)
NVIDIA使用加速計(jì)算與AI推動(dòng)精準(zhǔn)醫(yī)學(xué)發(fā)展
NVIDIA 攜手行業(yè)領(lǐng)先機(jī)構(gòu)推動(dòng)基因組學(xué)、藥物發(fā)現(xiàn)及醫(yī)療健康行業(yè)發(fā)展

NVIDIA AI助力日本制藥公司推進(jìn)藥物研發(fā)
嵌入式和人工智能究竟是什么關(guān)系?
《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第6章人AI與能源科學(xué)讀后感
AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感
《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第一章人工智能驅(qū)動(dòng)的科學(xué)創(chuàng)新學(xué)習(xí)心得
risc-v在人工智能圖像處理應(yīng)用前景分析
人工智能ai 數(shù)電 模電 模擬集成電路原理 電路分析
NVIDIA Parabricks v4.3.1版本的新功能

評(píng)論