基因技術(shù)被認為是改變未來的技術(shù)之一。根據(jù)麥肯錫的報告,預(yù)計到2025年,全球?qū)塾嫯a(chǎn)生10億人次的全基因組數(shù)據(jù)?;蚪M學所需的數(shù)據(jù)量如此巨大,用深度學習技術(shù)去探索人類基因組密碼便成為了趨勢與未來。本專欄將結(jié)合最新的一篇來自于卡耐基梅龍大學的綜述論文,回顧與展望這一交叉學科的發(fā)展。
自從2013年變分自動編碼器(VAEs)被提出,2014年Goodfellow提出生成對抗網(wǎng)絡(luò)(GANs)起,生成式模型(generative models)深得深度學習研究者的青睞。尤其是當深度學習由于“black box”限制不能充分地推動AI在生物學、基因組學中的發(fā)展時,很多學者力求探索生成式模型在其中的應(yīng)用。
比如,前幾日arXiv上一篇來自斯坦福大學的論文就展現(xiàn)了如何利用 GANs 去編碼可變長度蛋白質(zhì)的合成 DNA 序列。面對合成生物學這類屬于人類未來的新興學科,人工智能在其中能發(fā)揮的巨大作用值得期待。對于想要了解這一領(lǐng)域的學者,本專欄介紹的這篇由卡耐基梅龍大學碩士岳天溦與Eric Xing教授的學生汪浩瀚合著的論文“Deep Learning for Genomics: A Concise Overview”, 綜述了深度學習在基因組學中的應(yīng)用。文中分析了不同深度模型的優(yōu)劣勢,舉例講解如何利用深度學習解決基因?qū)W問題,并且指出了當前科研所面臨的缺陷和挑戰(zhàn)。
論文鏈接:https://arxiv.org/abs/1802.00810作者GitHub還有一些重要論文的筆記: https://github.com/ThitherShore/DLforGenomics
深度學習應(yīng)用于基因組學:解密人類遺傳密碼
自從 James D Watson 于1953年將DNA解釋為人類遺傳信息的載體,人們便致力于研究如何更有效地收集生物信息,以及探索由這些遺傳信息主導的生物學過程。于1990年啟動的科學探索巨型工程:人類基因組計劃(Human Genome Project),其宗旨便在于測定組成人類染色體所包含的30億個堿基對組成的核苷酸序列。其目的在于繪制人類基因組圖譜,辨識并破譯其載有的人類遺傳信息。至2001年,人類基因組計劃首次公布了人類基因組工作的草圖。近年來,F(xiàn)ANTOM, ENCODE, Roadmap Epigenomics等,以及不同物種的基因組計劃被陸續(xù)啟動執(zhí)行,使得科學家們有更多的途徑和信息去探索基因科技。在這個人工智能技術(shù)全面滲透的時代,基因科技作為可以改變?nèi)祟愇磥淼目萍贾?,也備受關(guān)注。
基因組學不同于傳統(tǒng)的遺傳學,它的數(shù)據(jù)量非常大。遺傳學研究通常只牽扯到個別基因,但基因組學研究需考慮一個生物體的所有基因,從整體水平上探索全基因組在生命活動中發(fā)揮的作用。比如,若對人類基因序列測序,那么信息量級為23對染色體上的30億對堿基排序。
由于基因組學所需信息量巨大,其研究的推動依賴于先進的基因測序技術(shù)。Frederick Sanger 發(fā)明了測序法后,人類才得以對整個基因組進行測序。DNA微陣列(macroarray)芯片技術(shù)的誕生,使得大規(guī)模的基因測序成為可能。隨后,2000年首次商用的高通量測序(High-throughput Sequencing, THS)是基因測序領(lǐng)域的一次革命性的技術(shù)變革。HTS 可以大規(guī)模、低成本、快速地獲得任何生物的基因序列。但 HTS 有一個致命的缺陷,其測序結(jié)果是不完整的短序列片段,被稱為讀取單位(reads)。如何高效又精準地拼接這些碎片化的信息,對于HTS一直以來是一種挑戰(zhàn)。近期,一款由Google Brain 聯(lián)合 Alphabet旗下公司Verily所開發(fā)的開源工具DeepVariant,巧妙地將HTS序列片段的拼接問題轉(zhuǎn)化為一個圖像處理分類問題。DeepVariant利用了Google Brain 的圖像處理模型Inception,用深度神經(jīng)網(wǎng)絡(luò)來識別HTS測序結(jié)果中DNA堿基變異位點,包括基因 組上的單堿基突變(SNP)和小的插入缺失(Indel),從而極大提高了的拼接精度。
另一方面,深度學習模型被廣泛應(yīng)用于鑒別基因的不同成分,比如外顯子(exons), 內(nèi)含子( introns), 啟動子(promoters), 增強子(enhancers), positioned nucleosomes, 剪接位點( splice sites), 非轉(zhuǎn)錄區(qū) (untranslated region, UTR)等。同時,有豐富的數(shù)據(jù)種類可被用于基因組學的研究:基因微列陣(microarray),RNA-seq expression,轉(zhuǎn)錄因子(DNA結(jié)合),轉(zhuǎn)錄后修飾(RNA結(jié)合),組蛋白修飾(histone modifications)等。許多信息門戶比如GDC, dbGaP, GEO都為廣大科研工作者提供了這類數(shù)據(jù)來源。
面對日益精進的生物技術(shù),和飛速發(fā)展的深度學習與人工智能技術(shù),用深度學習去探索人類基因組密碼便成為了趨勢與未來。這篇paper分析了不同深度模型的優(yōu)劣勢,并站在不同生物問題的角度,談及深度學習在其中的應(yīng)用。文末指出了當前科研工作的一些缺陷和挑戰(zhàn)。
深度學習模型對比:CNN、RNN、自動編碼器、新興模型結(jié)構(gòu)
深度學習發(fā)展至今,CNN, RNN, 前饋神經(jīng)網(wǎng)絡(luò)(feed-forward neural networks),自動編碼器(Auto-Encoders)等種類繁多。在實際應(yīng)用中,如何利用各類模型的優(yōu)勢去解決不同類型的基因?qū)W問題呢?
CNN
近幾年,CNN在計算機視覺領(lǐng)域取得了空前的成功,這得益于其擅長的捕捉空間信息特征的能力。CNN在圖像處理領(lǐng)域卓越的性能亦可被用于基因組學研究中。類比于有R, G, B三個顏色通道的二維圖像,基因序列的一個窗口可以被看做有4個頻道(A, T, C, G)的一維序列,由此便可通過一維卷積核進行單序列分析(single sequence assays)。CNN能夠逐步提取圖像特征的能力,可以被用來鑒別基因圖像中有意義的圖形,從而應(yīng)用于 motif identification 和 binding classification 等問題中。
RNN
RNN擅長于處理序列性數(shù)據(jù),故而成功應(yīng)用于自然語言處理領(lǐng)域。由于基于序列很長,且位點之間有復雜的相關(guān)性,故RNN類結(jié)構(gòu)(LSTM, bi-LSTM, GRU)也被很多基因組學研究者青睞,應(yīng)用于通過基因序列的信息研究非編碼DNA(non-coding DNA)功能,或進行亞細胞定位( subcellular localization)等。
Auto encoders
自動編碼器是一個由來已久的神經(jīng)網(wǎng)絡(luò)模型,以往常被用于初始化神經(jīng)網(wǎng)絡(luò)參數(shù)。在近年VAE的思路提出后,不少學者又開始應(yīng)用VAE或Autoencoders類(Contractive Autoencoders, Stacked Denoising Autoencoders, Denoising Autoencoders)模型來進行數(shù)據(jù)降維,或試圖借此捕捉基因序列間隱含的依賴關(guān)系。
新興模型結(jié)構(gòu)
由于基因組數(shù)據(jù)量大,生物體各部分間依賴關(guān)系復雜,單一形式的深度神經(jīng)網(wǎng)絡(luò)模型已經(jīng)不能滿足人們對效率和精度的高要求,目前在基因組研究中取得突破性成功項目,都運用、結(jié)合了多個深度學習網(wǎng)絡(luò)模塊。比較常見的幾種方式包括:
CNN+RNN結(jié)構(gòu),利用CNN初步處理DNA序列局部特征,后結(jié)合RNN挖掘DNA序列間的依賴性,比如DanQ(下圖),在輸入層將DNA序列表示成one-hot編碼,分別經(jīng)過卷積層和池化層后,用LSTM進行進一步特征提?。?/p>
堆疊的(stacked)網(wǎng)絡(luò)結(jié)構(gòu),利用多層網(wǎng)絡(luò)去捕捉深層次的相互依賴關(guān)系,比如 DST-NNs;
同一網(wǎng)絡(luò)結(jié)構(gòu)的并行運用,比如DeepCpG,將兩個CNN各自作為整體模型的兩個子模塊(sub modules),分別從CpG sites和DNA序列提取特征,并在高層模塊(Fusion Module)融合這兩部分信息;
對于這些新興的,更復雜的網(wǎng)絡(luò)結(jié)構(gòu),雖然其應(yīng)用效果優(yōu)于傳統(tǒng)統(tǒng)計或機器學習,但其泛化性,可解釋性還亟待探究。
深度學習模型的可解釋性和建模方式
模型可解釋性
深度學習“黑箱”是人們一直在力求改進的一個缺陷。由于深度學習方法本身的這點不足,人們在直接將其應(yīng)用在基因組學中,力求解釋基因問題時,希望能夠賦予自己的模型適當?shù)目山忉屝?。作者介紹了一些經(jīng)典的計算機視覺領(lǐng)域?qū)NN的解釋,和基因組應(yīng)用中人們結(jié)合問題對深度學習模型解釋的例子。比如可視化CNN各層提取的特征,或采用saliency map,又比如 Deep GDashboard 模型,它探索比較了CNN和RNN各自在同一個問題中發(fā)揮的性能。
建模方式討論
想要提高深度學習在基因組學中應(yīng)用的效果,除了提升模型結(jié)構(gòu)上的設(shè)計,還可以考慮從模型訓練上提高。由于基因組數(shù)據(jù)量之大,完整訓練一個精準有效的網(wǎng)絡(luò)耗時且困難,所以可以考慮遷移學習(transfer learning)。很將某個訓練好的模型(部分或整體)用作另一個問題的初始化,或用已有模型直接進行特征提取分析。這種思路在計算機視覺領(lǐng)域早已應(yīng)用。此外,可以考慮同時解決兩個或多個相關(guān)的問題(多任務(wù)學習, multitask learning),在建模中利用他們共有的信息成分??紤]到基因組數(shù)據(jù)的多樣性,可以考慮multi-view learning,建立模型利用該問題的不同數(shù)據(jù)類型。這可以通過concatenating features, ensemble methods, or multi-modal learning (為不同模塊/不同數(shù)據(jù)類型設(shè)計相應(yīng)的sub-networks,并在網(wǎng)絡(luò)高層結(jié)構(gòu)中融合各個子網(wǎng)絡(luò)的信息) 來實現(xiàn)。
深度學習在基因組學問題中的應(yīng)用
論文中回顧了深度學習在以下這些領(lǐng)域中的應(yīng)用,并詳細介紹了一些近年的值得矚目的研究:
1. 基因表達(gene expression):特征和預(yù)測2. 調(diào)控基因組學(regulatory genomics):
啟動子(promoters)和增強子(enhancers)
Functional Activities
Splicing
轉(zhuǎn)錄因子(Transcription Factors) and RNA-binding Proteins
亞細胞定位(Subcellular Localization)
突變(Mutations) and Variant Calling
3. 結(jié)構(gòu)基因組學(structural genomics):
蛋白質(zhì)的結(jié)構(gòu)分類(Structural Classification of Proteins)
蛋白質(zhì)二級結(jié)構(gòu)(Protein Secondary Structure)
Contact Map
挑戰(zhàn)和展望
想要建立深度學習模型解決基因組學問題,需要明確現(xiàn)有一些限制和挑戰(zhàn),才能更有全局觀,更有目的性的開發(fā)更有效的模型。
數(shù)據(jù)局限性
獲取生物學數(shù)據(jù)通常耗財耗時,尤其是當我們想通過基因組學數(shù)據(jù)研究某種稀有性狀/疾病時,數(shù)據(jù)來源十分匱乏。
作者介紹了以下幾種情況下應(yīng)對數(shù)據(jù)所帶來的局限性的一些對策和論文:1.數(shù)據(jù)各類之間不平衡(class-imbalanced)或部分數(shù)據(jù)沒有標簽(labels)
2.數(shù)據(jù)類型不同(Various Data Sources)3.數(shù)據(jù)來源混雜(Heterogeneity and Confounding Correlations):heterogeneous datasets是醫(yī)療數(shù)據(jù)中很常見的問題。人種的不同,人群的區(qū)域性,數(shù)據(jù)采集的不同批次,都會造成一些誤導因素(confoundering factors)需要模型去處理。
特征提取
在應(yīng)用中,很多時候我們會采用一些人工提取的特征(hand-engineered features),但這通常需要相應(yīng)領(lǐng)域的專家協(xié)助。雖然譬如CNN這樣的模型,可以有效地提取數(shù)據(jù)中的特征,但這對模型的設(shè)計和調(diào)參要求較高。故若有好的特征提取方式,可以有效加速模型訓練,推動科研進程。作者談及了幾種基于拓撲學(topology)的特征提取方式,和一些特征表示方式。
如下圖,這是一個利用了拓撲學中持續(xù)同調(diào)(persistent homolgy)概念提取蛋白質(zhì)三維結(jié)構(gòu)中特征的思路。作者從蛋白質(zhì)出發(fā)建單純復形(simplicial complex),從其中拓撲不變量提取特征,并成功地應(yīng)用于包括蛋白質(zhì)superfamily分類,protein-ligand binding等多個問題中。
前文討論過各種模型的優(yōu)劣勢,故而在設(shè)計模型時,我們應(yīng)根據(jù)問題選擇合理的設(shè)計。同時,也可以在模型參數(shù)中引入一些生物學背景知識(prior information),在有限的數(shù)據(jù)下,盡可能有效地利用現(xiàn)有的信息。
最后,想要讓深度學習在基因組學研究中發(fā)揮巨大的作用,我們還有很長的路要走。從生物科技上客服獲取數(shù)據(jù)的困難,從深度學習方面貼合特定問題開發(fā)合適的模型。我們應(yīng)謹記現(xiàn)有的困難和挑戰(zhàn),繼續(xù)推動這個學科的發(fā)展。
-
深度學習
+關(guān)注
關(guān)注
73文章
5561瀏覽量
122795
原文標題:深度學習 + 基因組學:破譯人類 30 億堿基對
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
5G RedCap物聯(lián)網(wǎng)終端的主要省電技術(shù)及高效測試方案

前端技術(shù)的未來趨勢:擁抱創(chuàng)新,塑造無限可能
如何避免labview生成的exe被windows防護系統(tǒng)自動刪除
Arm 技術(shù)預(yù)測:2025 年及未來的技術(shù)趨勢

Micro-LED技術(shù)解析

端到端自動駕駛技術(shù)研究與分析
ARM技術(shù)是什么?國內(nèi)有哪些ARM廠家呢?一起來了解一下!
重塑線控底盤技術(shù):自動駕駛的未來支柱
什么是網(wǎng)絡(luò)大模型技術(shù)

30s高能速遞 | 第三屆 OpenHarmony技術(shù)大會精彩搶鮮看
盛事啟幕 | 第三屆OpenHarmony技術(shù)大會重磅官宣,邀您共繪智聯(lián)未來
單片機為什么被認為是一門簡單的技術(shù)?

評論