ntr是什么意思,一级特爽A片高潮在线播放

第二部分編譯后的內(nèi)容：

3. 問題遇見方法：從機(jī)器學(xué)習(xí)的視角去解決化學(xué)問題的方法

在將機(jī)器學(xué)習(xí)的具體內(nèi)容應(yīng)用于實(shí)踐中的過程中，有大量可供參考的資源，包括大量的書籍、評(píng)論和互聯(lián)網(wǎng)資源等。本節(jié)將從機(jī)器學(xué)習(xí)研究人員和社區(qū)的高層視角出發(fā)，探討他們?nèi)绾慰创徒鉀Q問題。首先，我們將重新分類前文提到的各種化學(xué)問題，將其作為已確認(rèn)的機(jī)器學(xué)習(xí)問題實(shí)例。然后，再通過梳理機(jī)器學(xué)習(xí)社區(qū)共同關(guān)注的主題和實(shí)踐，來探討其在化學(xué)應(yīng)用中的具體體現(xiàn)，并重點(diǎn)關(guān)注基準(zhǔn)測試、領(lǐng)域知識(shí)的作用以及社區(qū)價(jià)值觀相關(guān)的因素。

3.1 機(jī)器學(xué)習(xí)工具箱

機(jī)器學(xué)習(xí)為利用數(shù)據(jù)解決問題提供了一套算法和理論工具。機(jī)器學(xué)習(xí)已經(jīng)界定了一組明確的問題框架，用于處理語言、視覺、音頻、視頻、表格數(shù)據(jù)、科學(xué)數(shù)據(jù)等多個(gè)領(lǐng)域的多樣化任務(wù)。每個(gè)問題都設(shè)定了一組輸入要求和期望的目標(biāo)，這有助于在一個(gè)共同框架下對(duì)不同算法進(jìn)行經(jīng)驗(yàn)基準(zhǔn)測試和理論分析。在表1中，我們列出了一些重要的機(jī)器學(xué)習(xí)問題及其預(yù)期的輸入和目標(biāo)，并將不同的化學(xué)問題重新歸類為這些機(jī)器學(xué)習(xí)問題的實(shí)例。

機(jī)器學(xué)習(xí)問題	輸入	目標(biāo)	化學(xué)問題	算法
回歸和分類	成對(duì)的數(shù)據(jù){()}	預(yù)測	屬性預(yù)測神經(jīng)網(wǎng)絡(luò)勢(shì) 產(chǎn)率預(yù)測快速預(yù)測的代理模型光譜預(yù)測圖像分割 3D結(jié)構(gòu)預(yù)測	經(jīng)典機(jī)器學(xué)習(xí)：線性回歸隨機(jī)森林支持向量機(jī) 梯度提升機(jī) 高斯過程神經(jīng)網(wǎng)絡(luò) 圖神經(jīng)網(wǎng)絡(luò) 等變神經(jīng)網(wǎng)絡(luò) transformers
生成模型	數(shù)據(jù)集	繪制樣本或	構(gòu)象搜索分子對(duì)接晶體結(jié)構(gòu)預(yù)測過渡態(tài)搜索結(jié)構(gòu)鑒定正向合成預(yù)測分子設(shè)計(jì)	變分自編碼器生成對(duì)抗網(wǎng)絡(luò) 歸一化流自回歸模型去噪擴(kuò)散和流匹配
采樣	能量	繪制樣本	平衡采樣過渡態(tài)路徑采樣分子設(shè)計(jì)	馬爾可夫鏈蒙特卡洛序貫蒙特卡洛 GFlow網(wǎng)絡(luò)（生成流網(wǎng)絡(luò)）
基于梯度的優(yōu)化	損失函數(shù)	優(yōu)化參數(shù)	神經(jīng)網(wǎng)絡(luò)波函數(shù) 物理信息神經(jīng)網(wǎng)絡(luò) 可微分模擬分子設(shè)計(jì)	一階：（隨機(jī)）梯度下降 Adam 優(yōu)化二階：k-FAC
黑箱優(yōu)化	預(yù)言機(jī)函數(shù)	最優(yōu)解	反應(yīng)和過程優(yōu)化分子設(shè)計(jì)	貝葉斯優(yōu)化賭博機(jī)優(yōu)化強(qiáng)化學(xué)習(xí) 遺傳算法
智能體	環(huán)境的：狀態(tài)集合{} 動(dòng)作集合{} 狀態(tài)轉(zhuǎn)移獎(jiǎng)勵(lì)函數(shù)	從最優(yōu)策略中抽取動(dòng)作：	提取文獻(xiàn)數(shù)據(jù) 執(zhí)行模擬回答問題合成規(guī)劃	大預(yù)言模型提示詞框架強(qiáng)化學(xué)習(xí)

回歸和分類的目標(biāo)是根據(jù)輸入 x 預(yù)測標(biāo)簽 y，前提是有一組配對(duì)數(shù)據(jù)。標(biāo)簽可以是一維的，例如在預(yù)測屬性、能量或產(chǎn)量時(shí)，也可以是高維的，例如與力場、光譜預(yù)測和分割相關(guān)的機(jī)器學(xué)習(xí)回歸問題。當(dāng)數(shù)據(jù)集較小且為表格形式時(shí)，梯度提升機(jī)（如 XGBoost）通常表現(xiàn)良好。高斯過程同樣適用于小規(guī)模數(shù)據(jù)，并能為貝葉斯優(yōu)化提供良好的不確定性。然而，深度神經(jīng)網(wǎng)絡(luò)則是處理高維復(fù)雜數(shù)據(jù)（如圖像、文本和分子）的首選算法。神經(jīng)網(wǎng)絡(luò)架構(gòu)的選擇受到具體問題約束的影響：對(duì)于二維圖使用圖神經(jīng)網(wǎng)絡(luò)，而對(duì)于三維數(shù)據(jù)則采用等變架構(gòu)。最近，Transformer 的出現(xiàn)徹底改變了語言、圖像、圖形和 3D 分子的建模方式。

生成模型的目的是從由數(shù)據(jù)集 {x} 定義的分布 p(x) 中抽取樣本 x。無條件生成建模旨在匹配數(shù)據(jù)分布，而條件生成建模則接受一個(gè)標(biāo)簽或提示 y，并試圖學(xué)習(xí)條件分布 p(x|y)，這在一定程度上模糊了無監(jiān)督學(xué)習(xí)與有監(jiān)督學(xué)習(xí)之間的界限。盡管無條件生成建模在化學(xué)領(lǐng)域的應(yīng)用價(jià)值較低，但條件生成建模非常適合解決逆問題或一對(duì)多問題。例如，構(gòu)象搜索（一個(gè)二維結(jié)構(gòu)對(duì)應(yīng)多個(gè)三維構(gòu)象）、結(jié)構(gòu)解析（一個(gè)信號(hào)可能與多種分子一致）以及前向合成預(yù)測（給定反應(yīng)物，可能產(chǎn)生多種產(chǎn)品）都屬于這種情況。生成模型天生適合于提供多個(gè)高質(zhì)量答案的能力，而回歸方法則會(huì)對(duì)所有可能的答案進(jìn)行平均，這樣得到的結(jié)果可能并不代表一個(gè)高質(zhì)量的答案。例如，AlphaFold2使用回歸方法根據(jù)一個(gè)序列預(yù)測出一個(gè)三維結(jié)構(gòu)，而AlphaFold3則利用擴(kuò)散模型為相同輸入結(jié)構(gòu)預(yù)測多個(gè)生物分子組裝。目前存在許多類型的生成模型，如變分自編碼器、生成對(duì)抗網(wǎng)絡(luò)和歸一化流，但目前主導(dǎo)作用的是用于語言處理的自回歸模型，以及用于圖像等感知數(shù)據(jù)的擴(kuò)散/流匹配模型。在化學(xué)領(lǐng)域，這轉(zhuǎn)化為 SMILES 的化學(xué)語言模型和三維分子結(jié)構(gòu)的擴(kuò)散模型。而這兩種方法都依賴于通過神經(jīng)網(wǎng)絡(luò)（通常是變壓器）進(jìn)行逐步生成和迭代預(yù)測。由于無條件生成模型學(xué)習(xí)重現(xiàn)數(shù)據(jù)分布，這些數(shù)據(jù)往往是大量豐富且未標(biāo)記的數(shù)據(jù)，因此訓(xùn)練生成模型也可以被視為將這些數(shù)據(jù)壓縮到網(wǎng)絡(luò)權(quán)重中，從而賦予一種理解概念。隨后，就可以基于這種理解來構(gòu)建諸如采樣和智能體行為等任務(wù)了。

采樣的目標(biāo)也是從某個(gè)分布中抽取樣本，但它與生成模型不同，因?yàn)椴蓸又荒芡ㄟ^一個(gè)能量函數(shù) ( E(x) ) 來訪問，該函數(shù)定義了一個(gè)未歸一化的概率密度。由于沒有提供數(shù)據(jù)集，因此無法簡單地訓(xùn)練生成模型。此外，要生成一個(gè)數(shù)據(jù)集，首先需要進(jìn)行樣本抽取。而且，能量函數(shù)的計(jì)算通常成本很高。因此，采樣問題在機(jī)器學(xué)習(xí)和計(jì)算化學(xué)中被認(rèn)為是最具挑戰(zhàn)性的問題之一。文獻(xiàn)中存在許多采樣算法，其中大多都源自于統(tǒng)計(jì)力學(xué)，如馬爾可夫鏈蒙特卡洛（MCMC）和朗之萬動(dòng)力學(xué)。這些傳統(tǒng)方法開始將現(xiàn)代機(jī)器學(xué)習(xí)的理念融入其中，例如從擴(kuò)散模型中獲取靈感用于MCMC，或?qū)⒖蓪W(xué)習(xí)組件納入序慣蒙特卡羅方法。有些方法則學(xué)習(xí)偏置勢(shì)以進(jìn)行過渡態(tài)路徑采樣，而其他方法則將擴(kuò)散模型轉(zhuǎn)化為可解決組合優(yōu)化問題的采樣器。因此采樣方法對(duì)于解決平衡取樣問題至關(guān)重要，因?yàn)槠鋵?duì)于預(yù)測許多化學(xué)過程的熱力學(xué)和動(dòng)力學(xué)是必不可少的。而生成模型可以作為采樣算法的組件，例如在Boltzmann生成器中，通過能量和示例進(jìn)行訓(xùn)練。此外，Boltzmann生成模型開始利用生成模型在不同樣本之間進(jìn)行遷移學(xué)習(xí)。而生成流網(wǎng)絡(luò)（GFlowNets）是通過學(xué)習(xí)在生成圖中如何分配流量來解決采樣問題的，其在生成多樣化的離散數(shù)據(jù)方面具有獨(dú)特的優(yōu)勢(shì)。事實(shí)上，越來越多的文獻(xiàn)將GFlowNets應(yīng)用到了分子和材料設(shè)計(jì)問題中來了。

基于梯度的優(yōu)化算法旨在優(yōu)化與參數(shù)相關(guān)的平滑損失函數(shù)，該函數(shù)用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)，以解決幾乎所有其他機(jī)器學(xué)習(xí)問題。為此，機(jī)器學(xué)習(xí)領(lǐng)域發(fā)展了一系列優(yōu)化算法，如隨機(jī)梯度下降、Adam以及利用二階導(dǎo)數(shù)信息的K-FAC等二階優(yōu)化方法。諸如PyTorch、JAX和Tensorflow等機(jī)器學(xué)習(xí)框架已經(jīng)實(shí)現(xiàn)了自動(dòng)微分和GPU加速，使得優(yōu)化神經(jīng)網(wǎng)絡(luò)變得更加容易。而神經(jīng)網(wǎng)絡(luò)能夠被如此出色地優(yōu)化這一事實(shí)，激發(fā)了將其作為求解波函數(shù)的試探方法，以滿足薛定諤方程的需求。這種方法本身是物理信息神經(jīng)網(wǎng)絡(luò)（PINN）的一個(gè)應(yīng)用實(shí)例，它通過將偏微分方程（PDE）本身作為損失函數(shù)，來尋找這些方程的神經(jīng)網(wǎng)絡(luò)的解。此外自動(dòng)微分還允許在模擬過程中傳遞導(dǎo)數(shù)，這能夠使網(wǎng)絡(luò)學(xué)習(xí)到成對(duì)交互的勢(shì)能，為過渡態(tài)路徑采樣學(xué)習(xí)偏置勢(shì)，并執(zhí)行逆向設(shè)計(jì)。

黑箱優(yōu)化方法嘗試以無導(dǎo)數(shù)的方式，盡可能少地調(diào)用預(yù)言機(jī)函數(shù) ( f(x) ) 來優(yōu)化它。在許多實(shí)驗(yàn)問題中都是這種情況，例如優(yōu)化反應(yīng)參數(shù)以提高產(chǎn)率、優(yōu)化設(shè)備處理參數(shù)以提高性能，或優(yōu)化液體處理參數(shù)。為了以高樣本效率解決這些問題，會(huì)應(yīng)用如貝葉斯優(yōu)化和賭博機(jī)優(yōu)化等算法。當(dāng)樣本效率不是問題時(shí)，也可以應(yīng)用諸如強(qiáng)化學(xué)習(xí)和遺傳算法等元啟發(fā)式優(yōu)化算法。黑箱優(yōu)化也可以被視為采樣的一個(gè)實(shí)例，其中目標(biāo)分布集中在全局最優(yōu)解周圍。

智能體在環(huán)境中解決復(fù)雜的多步驟問題。環(huán)境定義了可能的狀態(tài)、動(dòng)作、狀態(tài)之間的轉(zhuǎn)換以及獎(jiǎng)勵(lì)函數(shù)。例如，逆合成規(guī)劃中，分子作為狀態(tài)，化學(xué)反應(yīng)作為動(dòng)作，產(chǎn)率和成本作為獎(jiǎng)勵(lì)函數(shù)。像逆合成規(guī)劃或機(jī)器人運(yùn)動(dòng)規(guī)劃這樣的規(guī)劃問題自然可以通過智能體的行為來解決，而學(xué)習(xí)最優(yōu)智能體行為的標(biāo)準(zhǔn)算法被稱為強(qiáng)化學(xué)習(xí)。但是，由于強(qiáng)化學(xué)習(xí)在樣本效率上表現(xiàn)不佳，常見的方法是使用生成模型來初始化智能體：例如，像ChatGPT這樣的有用的助手被初始化為在大規(guī)模互聯(lián)網(wǎng)文本上預(yù)訓(xùn)練的大型語言模型，然后通過微調(diào)來最大化滿足人類偏好的獎(jiǎng)勵(lì)。此外，提示框架作為一套迅速發(fā)展的方法，可用于增強(qiáng)這些智能體的能力，使它們能夠逐步推理、使用工具、檢索信息、執(zhí)行代碼，并不斷重復(fù)這些步驟。

3.1.1 工具箱的優(yōu)勢(shì)

共享問題接口可以對(duì)許多不同算法進(jìn)行廣泛且清晰的基準(zhǔn)測試。例如，Song等人在其文章中提供了一個(gè)例子，在表1中，他們提出了一種新的生成模型類，并將其方法與27種不同類別的生成模型在相同數(shù)據(jù)集和基準(zhǔn)上進(jìn)行了廣泛比較。

每個(gè)機(jī)器學(xué)習(xí)問題都有其自身的理論基礎(chǔ)。數(shù)學(xué)理論可以分析算法在收斂時(shí)的性質(zhì)或證明其收斂過程，解釋為何某些方法比其他方法更為有效。而共享的問題接口也有助于分析，可以用來確定一種方法是否與另一種方法相同，或者哪些方法比其他方法更具普適性，從而有助于統(tǒng)一多樣性的文獻(xiàn)研究。

3.1.2 工具可以相互疊加使用

機(jī)器學(xué)習(xí)問題常常相互交織在一起。例如，生成模型，如擴(kuò)散模型，會(huì)利用經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)進(jìn)行回歸去噪處理。智能體是建立在生成文本模型之上的，而生成模型本身的核心是一個(gè)用于預(yù)測下一個(gè)標(biāo)記的神經(jīng)網(wǎng)絡(luò)。這意味著在機(jī)器學(xué)習(xí)中，不同的技術(shù)和模型往往可以相互構(gòu)建和擴(kuò)展，形成更為復(fù)雜和強(qiáng)大的系統(tǒng)。這些網(wǎng)絡(luò)都是通過像 Adam 這樣的隨機(jī)優(yōu)化方法進(jìn)行訓(xùn)練的，而黑箱優(yōu)化則用于選擇網(wǎng)絡(luò)的超參數(shù)。此外，采樣算法、黑箱優(yōu)化和智能體也可以結(jié)合之前數(shù)據(jù)訓(xùn)練的生成模型，用來提高數(shù)據(jù)生成的質(zhì)量。

表1中列舉的問題并非詳盡無遺。其他問題包括不確定性量化，這在貝葉斯優(yōu)化和主動(dòng)學(xué)習(xí)中很有幫助，還有在保護(hù)隱私的同時(shí)合并工業(yè)制藥數(shù)據(jù)的聯(lián)邦學(xué)習(xí)，以及用于普遍適用的分子描述符的表示學(xué)習(xí)，因果學(xué)習(xí)，檢索和壓縮等問題。

3.1.3 選擇適當(dāng)?shù)墓ぞ邅硗瓿扇蝿?wù)

盡管機(jī)器學(xué)習(xí)工具功能強(qiáng)大，但只有在正確的任務(wù)上使用時(shí)才能發(fā)揮最大作用。例如，如前所述，生成模型更適合處理一對(duì)多問題，例如3D結(jié)構(gòu)預(yù)測。基于梯度的優(yōu)化適用于損失函數(shù)可微分且能夠快速評(píng)估的情況，比如優(yōu)化神經(jīng)網(wǎng)絡(luò)，但并不一定適用于優(yōu)化分子結(jié)構(gòu)。盡管分子設(shè)計(jì)常被視為一個(gè)黑箱優(yōu)化問題，但可以認(rèn)為，采樣更適合用于分子設(shè)計(jì)：即通過尋找多樣且高質(zhì)量的結(jié)果來解決多目標(biāo)問題。相比之下，黑盒優(yōu)化通常只專注于當(dāng)前見過的最優(yōu)解。因此，分子設(shè)計(jì)不能僅僅依靠生成模型，因?yàn)樯赡Ｐ蛯W(xué)習(xí)的是給定數(shù)據(jù)集的分布。而分子設(shè)計(jì)則需要在已知數(shù)據(jù)分布之外尋找卓越的候選分子。

在化學(xué)領(lǐng)域，通常將問題視為一種搜索，就像在稻草堆中尋找一根針一樣。像傳統(tǒng)的對(duì)接方法會(huì)搜索所有可行的配體位置，而晶體結(jié)構(gòu)預(yù)測則會(huì)全面的搜索所有可能的原子排列。而基于虛擬篩選的分子設(shè)計(jì)會(huì)假設(shè)在龐大的虛擬庫中會(huì)找到足夠優(yōu)秀的“針”。當(dāng)可用計(jì)算資源足夠時(shí)，基于搜索的視角非常有用，因?yàn)檫@可以全面建模一個(gè)空間，以證明不存在良好的解決方案。然而，對(duì)于許多應(yīng)用來說，全面的搜索可能過于繁瑣。想象一下，這就好比試圖在所有可能的英語文本中進(jìn)行搜索來寫一篇論文。這個(gè)時(shí)候一個(gè)有幫助的思考是，是否可以利用現(xiàn)有數(shù)據(jù)和算法將搜索問題重新框定為生成模型或采樣問題。

3.2 機(jī)器學(xué)習(xí)社區(qū)的主題與實(shí)踐

解決化學(xué)問題可以通過高級(jí)視角和社區(qū)實(shí)踐來輔助。為了將機(jī)器學(xué)習(xí)的觀點(diǎn)放在算法開發(fā)的背景下進(jìn)行說明，我們描述了ML社區(qū)中的共同主題和實(shí)踐，比如基準(zhǔn)測試、高度跨學(xué)科性，以及深度學(xué)習(xí)的痛苦教訓(xùn)。所有這些都將在下文展開。

3.2.1 基準(zhǔn)測試的作用

基準(zhǔn)測試在機(jī)器學(xué)習(xí)的發(fā)展過程中發(fā)揮著至關(guān)重要的作用，它推動(dòng)著模型和方法的持續(xù)改進(jìn)。在機(jī)器學(xué)習(xí)社區(qū)非常重視能夠提升現(xiàn)有技術(shù)水平的方法。因此每年至少有三大計(jì)算機(jī)科學(xué)會(huì)議（NeurIPS、ICML 和 ICLR），使得漸進(jìn)式的進(jìn)展時(shí)常出現(xiàn)。這些對(duì)現(xiàn)有基準(zhǔn)的細(xì)微迭代改進(jìn)，隨著時(shí)間的推移，從而獲得的顯著性能提升。對(duì)于研究人員而言，基準(zhǔn)測試提供了明確的評(píng)估標(biāo)準(zhǔn)，以幫助他們識(shí)別模型中哪些組成部分對(duì)性能影響最大，進(jìn)而可以實(shí)現(xiàn)更有針對(duì)性和更具影響力的發(fā)展。

機(jī)器學(xué)習(xí)研究的一個(gè)顯著特點(diǎn)是使用排行榜，提出的方法根據(jù)其在既定基準(zhǔn)測試中的表現(xiàn)進(jìn)行排名。為了能在主要會(huì)議上被接收，論文必須在技術(shù)上有所進(jìn)步或與當(dāng)前最先進(jìn)的水平相比具有競爭力。因此這一評(píng)價(jià)機(jī)制推動(dòng)了各個(gè)領(lǐng)域的顯著進(jìn)展，從圖像分類到機(jī)器翻譯，再到圖像生成，甚至解決奧林匹克數(shù)學(xué)問題。如Open Catalyst Project正是利用這一機(jī)制為神經(jīng)網(wǎng)絡(luò)勢(shì)設(shè)定了一個(gè)基準(zhǔn)，用來弛豫金屬表面上的有機(jī)吸附物。此外，該項(xiàng)目還提供了一個(gè)比以往更大的數(shù)據(jù)集，激勵(lì)了更強(qiáng)大的等變架構(gòu)的持續(xù)發(fā)展。從2020年到2023年，預(yù)測吸附能的成功率從1%提升至14%，所以目前的模型在預(yù)測吸附方面已開始變得實(shí)用起來了。而另一個(gè)名為Matbench Discovery的基準(zhǔn)則是在工業(yè)界引發(fā)了神經(jīng)力場的軍備競賽。

然而，盡管基準(zhǔn)測試是一種強(qiáng)大的工具，但在化學(xué)領(lǐng)域的應(yīng)用中，我們必須持批判態(tài)度。因?yàn)椋m然領(lǐng)域?qū)＜以诙x能夠轉(zhuǎn)化為實(shí)驗(yàn)室實(shí)際結(jié)果的有效基準(zhǔn)方面具有獨(dú)特優(yōu)勢(shì)。但在機(jī)器學(xué)習(xí)文獻(xiàn)中，問題的設(shè)置雖然針對(duì)計(jì)算性能進(jìn)行了優(yōu)化，卻仍可能與實(shí)驗(yàn)驗(yàn)證的實(shí)際情況不符。這種不一致可能導(dǎo)致關(guān)注點(diǎn)從解決實(shí)際問題轉(zhuǎn)移到單純推動(dòng)機(jī)器學(xué)習(xí)技術(shù)的發(fā)展上。隨著方法的成熟和基準(zhǔn)的飽和，新的、更相關(guān)的基準(zhǔn)亟需出現(xiàn)。

為機(jī)器學(xué)習(xí)研究人員定義和框定問題是一項(xiàng)至關(guān)重要的任務(wù)。這需要以一種更廣泛的機(jī)器學(xué)習(xí)社區(qū)易于理解的方式來提出重要的問題和行動(dòng)呼吁。通過這種方式，化學(xué)家能夠引導(dǎo)機(jī)器學(xué)習(xí)工具的發(fā)展，使其在實(shí)驗(yàn)研究中更有實(shí)際應(yīng)用的可能性。盡管創(chuàng)建數(shù)據(jù)集和基準(zhǔn)可能被視為機(jī)械性的工作，但它可以通過利用機(jī)器學(xué)習(xí)社區(qū)的共同努力來推動(dòng)解決困難問題的進(jìn)展。假設(shè)一個(gè)化學(xué)問題能夠被清晰地提煉并轉(zhuǎn)化為一個(gè)適當(dāng)基準(zhǔn)化的機(jī)器學(xué)習(xí)問題。那么，化學(xué)家們可以思考：如果這些舊任務(wù)能夠以顯著更快或更高的準(zhǔn)確性來解決，那么現(xiàn)在又有哪些新問題變得可以解決呢？如此一來，在化學(xué)與材料這一廣闊而激動(dòng)人心的領(lǐng)域中，還有許多科學(xué)問題等待探索。

3.2.2 跨學(xué)科：化學(xué)對(duì)機(jī)器學(xué)習(xí)的影響

雖然在計(jì)算機(jī)科學(xué)領(lǐng)域，基準(zhǔn)測試的迭代改進(jìn)是方法驅(qū)動(dòng)的機(jī)器學(xué)習(xí)的重要組成部分，但另一種創(chuàng)新方法則充分利用了機(jī)器學(xué)習(xí)社區(qū)的高度跨學(xué)科特性。眾所周知，機(jī)器學(xué)習(xí)已被廣泛應(yīng)用于健康、農(nóng)業(yè)、氣候、保護(hù)、物理和天文學(xué)等多個(gè)領(lǐng)域。因此我們最近提出了“應(yīng)用驅(qū)動(dòng)的機(jī)器學(xué)習(xí)[1]”作為一種新興范式，該范式根據(jù)不同領(lǐng)域中的實(shí)際任務(wù)來評(píng)估成功，方法和評(píng)估同時(shí)也受到領(lǐng)域知識(shí)的啟發(fā)與背景的影響。應(yīng)用驅(qū)動(dòng)的創(chuàng)新承認(rèn)了這些來自多樣領(lǐng)域的任務(wù)融入機(jī)器學(xué)習(xí)發(fā)展所帶來的影響。因此這些新任務(wù)激勵(lì)著新的算法的產(chǎn)生。

在化學(xué)領(lǐng)域，圖神經(jīng)網(wǎng)絡(luò)的發(fā)展源于對(duì)分子圖建模的需求。這一需求推動(dòng)了對(duì)社交網(wǎng)絡(luò)、引用網(wǎng)絡(luò)、計(jì)算機(jī)程序和數(shù)據(jù)庫等其他圖數(shù)據(jù)建模的實(shí)際進(jìn)展。反過來，圖機(jī)器學(xué)習(xí)也取得了理論上的進(jìn)展，特別是在通過Weisfeiler–Lehman測試分析圖神經(jīng)網(wǎng)絡(luò)的表達(dá)能力方面。此外，神經(jīng)網(wǎng)絡(luò)需要遵循三維空間的旋轉(zhuǎn)對(duì)稱性，這進(jìn)一步促成了等變架構(gòu)的發(fā)展。所有這些在尊重對(duì)稱性方面的方法論發(fā)展被統(tǒng)一到幾何深度學(xué)習(xí)的理論中去了，該理論展示了卷積神經(jīng)網(wǎng)絡(luò)、圖神經(jīng)網(wǎng)絡(luò)與Transformer之間的緊密聯(lián)系。

除了理論和方法，機(jī)器學(xué)習(xí)研究者們對(duì)機(jī)器學(xué)習(xí)在解決全球健康和氣候變化等現(xiàn)實(shí)問題方面的潛力感到興奮。這種興奮表現(xiàn)為強(qiáng)烈的學(xué)習(xí)熱情，這體現(xiàn)在了博客文章、教學(xué)材料以及包含錄制講座的在線閱讀小組社區(qū)的蓬勃發(fā)展上。許多關(guān)注機(jī)器學(xué)習(xí)在化學(xué)領(lǐng)域應(yīng)用的研討會(huì)在主要的機(jī)器學(xué)習(xí)會(huì)議上舉行，如神經(jīng)信息處理系統(tǒng)大會(huì)（NeurIPS）、國際機(jī)器學(xué)習(xí)大會(huì)（ICML）和國際學(xué)習(xí)表征會(huì)議（ICLR）。這些資源的廣泛可用性也反映了機(jī)器學(xué)習(xí)社區(qū)對(duì)開放性的重視。會(huì)議論文可以被免費(fèi)發(fā)布，預(yù)印本受到重視，并且共享代碼被視為理所當(dāng)然。甚至還有專門接受博客文章的會(huì)議類別

在與機(jī)器學(xué)習(xí)（ML，Machine Learning）研究人員交流時(shí)，要對(duì)他們最初的假設(shè)保持耐心。通常，在機(jī)器學(xué)習(xí)文獻(xiàn)中會(huì)提出多個(gè)假設(shè)，但這些假設(shè)在實(shí)際實(shí)驗(yàn)中往往并不適用。例如，在分子設(shè)計(jì)中，常常忽略了分子的可合成性，或者在反應(yīng)預(yù)測中忽略了反應(yīng)條件。這反映了不同領(lǐng)域?qū)徃迦说膬r(jià)值觀和假設(shè)差異。我們很容易對(duì)這些問題做出評(píng)判，并認(rèn)為這些方法幼稚，這樣的批評(píng)也是有益的。但我們不應(yīng)因此而全盤否定所有努力：我們應(yīng)該問，如果能夠妥善處理這些額外的假設(shè)，這種方法是否能幫助解決我們的具體問題？由于機(jī)器學(xué)習(xí)從業(yè)者來自不同背景，他們可能不會(huì)立即理解化學(xué)領(lǐng)域的行話、假設(shè)和實(shí)驗(yàn)設(shè)置，但他們是渴望學(xué)習(xí)的。

3.2.3 慘痛的教訓(xùn)：平衡可擴(kuò)展性與領(lǐng)域知識(shí)

AlexNet的問世標(biāo)志著深度學(xué)習(xí)革命的開始，展示了神經(jīng)網(wǎng)絡(luò)在利用圖形處理單元（GPU）的計(jì)算能力進(jìn)行訓(xùn)練時(shí)，如何在圖像分類方面的準(zhǔn)確性上遠(yuǎn)超基于手工設(shè)計(jì)特征的模型。通過觀察神經(jīng)擴(kuò)展法則，我們明確看到了計(jì)算規(guī)模的力量，這些法則經(jīng)驗(yàn)性地且可靠地預(yù)測了隨著計(jì)算能力、數(shù)據(jù)量和參數(shù)數(shù)量的增加，模型性能將如何改善。這些擴(kuò)展法則激勵(lì)了GPT系列語言模型的發(fā)展，最終催生了諸如ChatGPT這樣的先進(jìn)應(yīng)用。

根據(jù)規(guī)模法則，在設(shè)計(jì)算法時(shí)，我們應(yīng)謹(jǐn)慎運(yùn)用領(lǐng)域知識(shí)。機(jī)器學(xué)習(xí)中的“慘痛的教訓(xùn)”提醒我們不要過于依賴領(lǐng)域知識(shí)來設(shè)計(jì)算法。雖然手工制作的領(lǐng)域特定設(shè)計(jì)選擇可能在短期內(nèi)帶來改進(jìn)，但那些更好地利用計(jì)算規(guī)模的方法往往在長期內(nèi)表現(xiàn)得更為出色。在文本、圖像、語音、國際象棋和圍棋等多個(gè)領(lǐng)域，依賴人類直覺和歸納偏差的方法已經(jīng)被可以充分利用摩爾定律所帶來的計(jì)算能力指數(shù)增長的“窮舉方法”所取代。

作為化學(xué)家，令人感到愉快的是開發(fā)受到我們化學(xué)知識(shí)啟發(fā)的方法，例如通過將量子化學(xué)描述符注入回歸分析，或?qū)ο到y(tǒng)施加物理約束。然而，我們必須提醒自己，人類對(duì)問題的理解并不直接意味著我們能夠設(shè)計(jì)出解決該問題的算法。盡管在機(jī)器學(xué)習(xí)研究中對(duì)語言學(xué)有著廣泛的知識(shí)，但像ChatGPT這樣的模型也是直到研究人員在大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練后才得以實(shí)現(xiàn)。

規(guī)模的力量可能讓人感到恐懼。即便是像在神經(jīng)網(wǎng)絡(luò)中強(qiáng)制執(zhí)行等變性這樣受到廣泛關(guān)注的假設(shè)，最近的研究也對(duì)此提出了挑戰(zhàn)：諸如概率對(duì)稱化和隨機(jī)幀平均等方法顯示，施加結(jié)構(gòu)約束并不是絕對(duì)必要的。而像AlphaFold和分子構(gòu)象場這樣的模型則證明，使用隨機(jī)旋轉(zhuǎn)的訓(xùn)練樣本進(jìn)行訓(xùn)練的模型能夠自動(dòng)學(xué)習(xí)旋轉(zhuǎn)等變性，但這需要更高的計(jì)算量和更長的訓(xùn)練時(shí)間。

在當(dāng)前階段，規(guī)模和數(shù)據(jù)仍然有限。例如，帶有反應(yīng)規(guī)則的專家系統(tǒng)依然是當(dāng)今合成規(guī)劃中最有效的方法，這可能是由于收集反應(yīng)數(shù)據(jù)的困難所導(dǎo)致的。此外，我們可以進(jìn)一步減少歸納偏差，訓(xùn)練語言模型直接生成3D分子結(jié)構(gòu)的.xyz文件，正如我們最近所做的那樣，與更為定制化的晶體結(jié)構(gòu)預(yù)測方法相比，其效果也相當(dāng)不錯(cuò)。然而，正如Alampara等人所說，目前的語言模型無法編碼表示特定材料屬性所需的幾何信息。

因此，這個(gè)慘痛的教訓(xùn)并不意味著對(duì)算法施加歸納偏置永遠(yuǎn)是錯(cuò)誤的。我們必須在利用計(jì)算能力和領(lǐng)域?qū)I(yè)知識(shí)之間找到一個(gè)最佳平衡。這一點(diǎn)在化學(xué)領(lǐng)域尤為重要：與語言和圖像等可以在互聯(lián)網(wǎng)規(guī)模上獲取的數(shù)據(jù)不同，化學(xué)數(shù)據(jù)相對(duì)稀缺，并且需要通過真實(shí)世界的實(shí)驗(yàn)來獲得。因此，設(shè)計(jì)能夠最有效利用這些有限數(shù)據(jù)的算法至關(guān)重要。手工設(shè)計(jì)的算法可以在短期內(nèi)實(shí)現(xiàn)更好的預(yù)測和更快的仿真，從而推動(dòng)數(shù)據(jù)生成，最終達(dá)到基礎(chǔ)模型所需的數(shù)據(jù)規(guī)模。

領(lǐng)域知識(shí)的另一個(gè)關(guān)鍵作用是確定問題的合適概念。我們應(yīng)該是從基本原理出發(fā)進(jìn)行建模，比如基于物理的模擬，還是將其視為一個(gè)化學(xué)信息學(xué)問題呢？這個(gè)問題在更廣泛的背景中如何體現(xiàn)的呢？例如，預(yù)測藥物對(duì)患者的影響可以通過模擬整個(gè)個(gè)體來實(shí)現(xiàn)，盡管目前這在實(shí)踐中并不可行，或者也可以通過統(tǒng)計(jì)建模或因果建模的方法來處理。在某個(gè)時(shí)刻，這些不同層次的模型需要進(jìn)行協(xié)調(diào)，而領(lǐng)域科學(xué)家在描繪這一結(jié)構(gòu)層級(jí)模型中是至關(guān)重要的。他們幫助判斷何時(shí)假設(shè)是合理的，何時(shí)又不合理。雖然機(jī)器學(xué)習(xí)工具無法獨(dú)立解決這些問題，但它們可以在整合不同模型組件方面提供顯著幫助。

參考文獻(xiàn)?????[1]

R. David, A. Aspuru-Guzik, B. Sara, D. Bistra, D. L. Priya, G. Marzyeh, K. Hannah, M. Claire, R. Esther, T. Milind and W. Adam, Position: Application-Driven Innovation in Machine Learning, Proceedings of the 41st International Conference on Machine Learning, ed. R. Salakhutdinov, Z.Kolter, K. Heller, A. Weller, N. Oliver, J. Scarlett and F. Berkenkamp, PMLR,2024, vol. 235, pp. 42707–42718[:https://proceedings.mlr.press/v235/rolnick24a.html

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

測試

測試

+關(guān)注

關(guān)注
8

文章
5900

瀏覽量
130272
人工智能

人工智能

+關(guān)注

關(guān)注
1811

文章
49504

瀏覽量
258271
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8528

瀏覽量
135876