chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何在化學(xué)和材料科學(xué)領(lǐng)域開展有影響力的人工智能研究?(二)

向欣電子 ? 2024-12-03 01:02 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

第二部分編譯后的內(nèi)容:

3. 問題遇見方法:從機(jī)器學(xué)習(xí)的視角去解決化學(xué)問題的方法

在將機(jī)器學(xué)習(xí)的具體內(nèi)容應(yīng)用于實(shí)踐中的過程中,有大量可供參考的資源,包括大量的書籍、評(píng)論和互聯(lián)網(wǎng)資源等。本節(jié)將從機(jī)器學(xué)習(xí)研究人員和社區(qū)的高層視角出發(fā),探討他們?nèi)绾慰创徒鉀Q問題。首先,我們將重新分類前文提到的各種化學(xué)問題,將其作為已確認(rèn)的機(jī)器學(xué)習(xí)問題實(shí)例。然后,再通過梳理機(jī)器學(xué)習(xí)社區(qū)共同關(guān)注的主題和實(shí)踐,來探討其在化學(xué)應(yīng)用中的具體體現(xiàn),并重點(diǎn)關(guān)注基準(zhǔn)測(cè)試、領(lǐng)域知識(shí)的作用以及社區(qū)價(jià)值觀相關(guān)的因素。

3.1 機(jī)器學(xué)習(xí)工具箱

機(jī)器學(xué)習(xí)為利用數(shù)據(jù)解決問題提供了一套算法和理論工具。機(jī)器學(xué)習(xí)已經(jīng)界定了一組明確的問題框架,用于處理語言、視覺、音頻、視頻、表格數(shù)據(jù)、科學(xué)數(shù)據(jù)等多個(gè)領(lǐng)域的多樣化任務(wù)。每個(gè)問題都設(shè)定了一組輸入要求和期望的目標(biāo),這有助于在一個(gè)共同框架下對(duì)不同算法進(jìn)行經(jīng)驗(yàn)基準(zhǔn)測(cè)試和理論分析。在表1中,我們列出了一些重要的機(jī)器學(xué)習(xí)問題及其預(yù)期的輸入和目標(biāo),并將不同的化學(xué)問題重新歸類為這些機(jī)器學(xué)習(xí)問題的實(shí)例。

機(jī)器學(xué)習(xí)問題輸入目標(biāo)化學(xué)問題算法
回歸和分類成對(duì)的數(shù)據(jù){()}預(yù)測(cè)屬性預(yù)測(cè)
神經(jīng)網(wǎng)絡(luò)勢(shì)
產(chǎn)率預(yù)測(cè)
快速預(yù)測(cè)的代理模型
光譜預(yù)測(cè)
圖像分割
3D結(jié)構(gòu)預(yù)測(cè)
經(jīng)典機(jī)器學(xué)習(xí):線性回歸
隨機(jī)森林
支持向量機(jī)
梯度提升機(jī)
高斯過程
神經(jīng)網(wǎng)絡(luò)
圖神經(jīng)網(wǎng)絡(luò)
等變神經(jīng)網(wǎng)絡(luò)
transformers
生成模型數(shù)據(jù)集繪制樣本或構(gòu)象搜索
分子對(duì)接
晶體結(jié)構(gòu)預(yù)測(cè)
過渡態(tài)搜索
結(jié)構(gòu)鑒定
正向合成預(yù)測(cè)
分子設(shè)計(jì)
變分自編碼器
生成對(duì)抗網(wǎng)絡(luò)
歸一化流
自回歸模型
去噪擴(kuò)散和流匹配
采樣能量繪制樣本平衡采樣
過渡態(tài)路徑采樣
分子設(shè)計(jì)
馬爾可夫鏈蒙特卡洛
序貫蒙特卡洛
GFlow網(wǎng)絡(luò)(生成流網(wǎng)絡(luò))
基于梯度的優(yōu)化損失函數(shù)優(yōu)化參數(shù)神經(jīng)網(wǎng)絡(luò)波函數(shù)
物理信息神經(jīng)網(wǎng)絡(luò)
可微分模擬
分子設(shè)計(jì)
一階:(隨機(jī))梯度下降
Adam 優(yōu)化
二階:k-FAC
黑箱優(yōu)化預(yù)言機(jī)函數(shù)最優(yōu)解反應(yīng)和過程優(yōu)化
分子設(shè)計(jì)
貝葉斯優(yōu)化
賭博機(jī)優(yōu)化
強(qiáng)化學(xué)習(xí)
遺傳算法
智能環(huán)境的:
狀態(tài)集合{}
動(dòng)作集合{}
狀態(tài)轉(zhuǎn)移
獎(jiǎng)勵(lì)函數(shù)
從最優(yōu)策略中抽取動(dòng)作:提取文獻(xiàn)數(shù)據(jù)
執(zhí)行模擬
回答問題
合成規(guī)劃
大預(yù)言模型提示詞框架
強(qiáng)化學(xué)習(xí)

回歸和分類的目標(biāo)是根據(jù)輸入 x 預(yù)測(cè)標(biāo)簽 y,前提是有一組配對(duì)數(shù)據(jù)。標(biāo)簽可以是一維的,例如在預(yù)測(cè)屬性、能量或產(chǎn)量時(shí),也可以是高維的,例如與力場(chǎng)、光譜預(yù)測(cè)和分割相關(guān)的機(jī)器學(xué)習(xí)回歸問題。當(dāng)數(shù)據(jù)集較小且為表格形式時(shí),梯度提升機(jī)(如 XGBoost)通常表現(xiàn)良好。高斯過程同樣適用于小規(guī)模數(shù)據(jù),并能為貝葉斯優(yōu)化提供良好的不確定性。然而,深度神經(jīng)網(wǎng)絡(luò)則是處理高維復(fù)雜數(shù)據(jù)(如圖像、文本和分子)的首選算法。神經(jīng)網(wǎng)絡(luò)架構(gòu)的選擇受到具體問題約束的影響:對(duì)于二維圖使用圖神經(jīng)網(wǎng)絡(luò),而對(duì)于三維數(shù)據(jù)則采用等變架構(gòu)。最近,Transformer 的出現(xiàn)徹底改變了語言、圖像、圖形和 3D 分子的建模方式。

生成模型的目的是從由數(shù)據(jù)集 {x} 定義的分布 p(x) 中抽取樣本 x。無條件生成建模旨在匹配數(shù)據(jù)分布,而條件生成建模則接受一個(gè)標(biāo)簽或提示 y,并試圖學(xué)習(xí)條件分布 p(x|y),這在一定程度上模糊了無監(jiān)督學(xué)習(xí)與有監(jiān)督學(xué)習(xí)之間的界限。盡管無條件生成建模在化學(xué)領(lǐng)域的應(yīng)用價(jià)值較低,但條件生成建模非常適合解決逆問題或一對(duì)多問題。例如,構(gòu)象搜索(一個(gè)二維結(jié)構(gòu)對(duì)應(yīng)多個(gè)三維構(gòu)象)、結(jié)構(gòu)解析(一個(gè)信號(hào)可能與多種分子一致)以及前向合成預(yù)測(cè)(給定反應(yīng)物,可能產(chǎn)生多種產(chǎn)品)都屬于這種情況。生成模型天生適合于提供多個(gè)高質(zhì)量答案的能力,而回歸方法則會(huì)對(duì)所有可能的答案進(jìn)行平均,這樣得到的結(jié)果可能并不代表一個(gè)高質(zhì)量的答案。例如,AlphaFold2使用回歸方法根據(jù)一個(gè)序列預(yù)測(cè)出一個(gè)三維結(jié)構(gòu),而AlphaFold3則利用擴(kuò)散模型為相同輸入結(jié)構(gòu)預(yù)測(cè)多個(gè)生物分子組裝。目前存在許多類型的生成模型,如變分自編碼器、生成對(duì)抗網(wǎng)絡(luò)和歸一化流,但目前主導(dǎo)作用的是用于語言處理的自回歸模型,以及用于圖像等感知數(shù)據(jù)的擴(kuò)散/流匹配模型。在化學(xué)領(lǐng)域,這轉(zhuǎn)化為 SMILES 的化學(xué)語言模型和三維分子結(jié)構(gòu)的擴(kuò)散模型。而這兩種方法都依賴于通過神經(jīng)網(wǎng)絡(luò)(通常是變壓器)進(jìn)行逐步生成和迭代預(yù)測(cè)。由于無條件生成模型學(xué)習(xí)重現(xiàn)數(shù)據(jù)分布,這些數(shù)據(jù)往往是大量豐富且未標(biāo)記的數(shù)據(jù),因此訓(xùn)練生成模型也可以被視為將這些數(shù)據(jù)壓縮到網(wǎng)絡(luò)權(quán)重中,從而賦予一種理解概念。隨后,就可以基于這種理解來構(gòu)建諸如采樣和智能體行為等任務(wù)了。

采樣的目標(biāo)也是從某個(gè)分布中抽取樣本,但它與生成模型不同,因?yàn)椴蓸又荒芡ㄟ^一個(gè)能量函數(shù) ( E(x) ) 來訪問,該函數(shù)定義了一個(gè)未歸一化的概率密度。由于沒有提供數(shù)據(jù)集,因此無法簡(jiǎn)單地訓(xùn)練生成模型。此外,要生成一個(gè)數(shù)據(jù)集,首先需要進(jìn)行樣本抽取。而且,能量函數(shù)的計(jì)算通常成本很高。因此,采樣問題在機(jī)器學(xué)習(xí)和計(jì)算化學(xué)中被認(rèn)為是最具挑戰(zhàn)性的問題之一。文獻(xiàn)中存在許多采樣算法,其中大多都源自于統(tǒng)計(jì)力學(xué),如馬爾可夫鏈蒙特卡洛(MCMC)和朗之萬動(dòng)力學(xué)。這些傳統(tǒng)方法開始將現(xiàn)代機(jī)器學(xué)習(xí)的理念融入其中,例如從擴(kuò)散模型中獲取靈感用于MCMC,或?qū)⒖蓪W(xué)習(xí)組件納入序慣蒙特卡羅方法。有些方法則學(xué)習(xí)偏置勢(shì)以進(jìn)行過渡態(tài)路徑采樣,而其他方法則將擴(kuò)散模型轉(zhuǎn)化為可解決組合優(yōu)化問題的采樣器。因此采樣方法對(duì)于解決平衡取樣問題至關(guān)重要,因?yàn)槠鋵?duì)于預(yù)測(cè)許多化學(xué)過程的熱力學(xué)和動(dòng)力學(xué)是必不可少的。而生成模型可以作為采樣算法的組件,例如在Boltzmann生成器中,通過能量和示例進(jìn)行訓(xùn)練。此外,Boltzmann生成模型開始利用生成模型在不同樣本之間進(jìn)行遷移學(xué)習(xí)。而生成流網(wǎng)絡(luò)(GFlowNets)是通過學(xué)習(xí)在生成圖中如何分配流量來解決采樣問題的,其在生成多樣化的離散數(shù)據(jù)方面具有獨(dú)特的優(yōu)勢(shì)。事實(shí)上,越來越多的文獻(xiàn)將GFlowNets應(yīng)用到了分子和材料設(shè)計(jì)問題中來了。

基于梯度的優(yōu)化算法旨在優(yōu)化與參數(shù)相關(guān)的平滑損失函數(shù),該函數(shù)用于訓(xùn)練神經(jīng)網(wǎng)絡(luò),以解決幾乎所有其他機(jī)器學(xué)習(xí)問題。為此,機(jī)器學(xué)習(xí)領(lǐng)域發(fā)展了一系列優(yōu)化算法,如隨機(jī)梯度下降、Adam以及利用二階導(dǎo)數(shù)信息的K-FAC等二階優(yōu)化方法。諸如PyTorch、JAX和Tensorflow等機(jī)器學(xué)習(xí)框架已經(jīng)實(shí)現(xiàn)了自動(dòng)微分和GPU加速,使得優(yōu)化神經(jīng)網(wǎng)絡(luò)變得更加容易。而神經(jīng)網(wǎng)絡(luò)能夠被如此出色地優(yōu)化這一事實(shí),激發(fā)了將其作為求解波函數(shù)的試探方法,以滿足薛定諤方程的需求。這種方法本身是物理信息神經(jīng)網(wǎng)絡(luò)(PINN)的一個(gè)應(yīng)用實(shí)例,它通過將偏微分方程(PDE)本身作為損失函數(shù),來尋找這些方程的神經(jīng)網(wǎng)絡(luò)的解。此外自動(dòng)微分還允許在模擬過程中傳遞導(dǎo)數(shù),這能夠使網(wǎng)絡(luò)學(xué)習(xí)到成對(duì)交互的勢(shì)能,為過渡態(tài)路徑采樣學(xué)習(xí)偏置勢(shì),并執(zhí)行逆向設(shè)計(jì)。

黑箱優(yōu)化方法嘗試以無導(dǎo)數(shù)的方式,盡可能少地調(diào)用預(yù)言機(jī)函數(shù) ( f(x) ) 來優(yōu)化它。在許多實(shí)驗(yàn)問題中都是這種情況,例如優(yōu)化反應(yīng)參數(shù)以提高產(chǎn)率、優(yōu)化設(shè)備處理參數(shù)以提高性能,或優(yōu)化液體處理參數(shù)。為了以高樣本效率解決這些問題,會(huì)應(yīng)用如貝葉斯優(yōu)化和賭博機(jī)優(yōu)化等算法。當(dāng)樣本效率不是問題時(shí),也可以應(yīng)用諸如強(qiáng)化學(xué)習(xí)和遺傳算法等元啟發(fā)式優(yōu)化算法。黑箱優(yōu)化也可以被視為采樣的一個(gè)實(shí)例,其中目標(biāo)分布集中在全局最優(yōu)解周圍。

智能體在環(huán)境中解決復(fù)雜的多步驟問題。環(huán)境定義了可能的狀態(tài)、動(dòng)作、狀態(tài)之間的轉(zhuǎn)換以及獎(jiǎng)勵(lì)函數(shù)。例如,逆合成規(guī)劃中,分子作為狀態(tài),化學(xué)反應(yīng)作為動(dòng)作,產(chǎn)率和成本作為獎(jiǎng)勵(lì)函數(shù)。像逆合成規(guī)劃或機(jī)器人運(yùn)動(dòng)規(guī)劃這樣的規(guī)劃問題自然可以通過智能體的行為來解決,而學(xué)習(xí)最優(yōu)智能體行為的標(biāo)準(zhǔn)算法被稱為強(qiáng)化學(xué)習(xí)。但是,由于強(qiáng)化學(xué)習(xí)在樣本效率上表現(xiàn)不佳,常見的方法是使用生成模型來初始化智能體:例如,像ChatGPT這樣的有用的助手被初始化為在大規(guī)?;ヂ?lián)網(wǎng)文本上預(yù)訓(xùn)練的大型語言模型,然后通過微調(diào)來最大化滿足人類偏好的獎(jiǎng)勵(lì)。此外,提示框架作為一套迅速發(fā)展的方法,可用于增強(qiáng)這些智能體的能力,使它們能夠逐步推理、使用工具、檢索信息、執(zhí)行代碼,并不斷重復(fù)這些步驟。

3.1.1 工具箱的優(yōu)勢(shì)

共享問題接口可以對(duì)許多不同算法進(jìn)行廣泛且清晰的基準(zhǔn)測(cè)試。例如,Song等人在其文章中提供了一個(gè)例子,在表1中,他們提出了一種新的生成模型類,并將其方法與27種不同類別的生成模型在相同數(shù)據(jù)集和基準(zhǔn)上進(jìn)行了廣泛比較。

每個(gè)機(jī)器學(xué)習(xí)問題都有其自身的理論基礎(chǔ)。數(shù)學(xué)理論可以分析算法在收斂時(shí)的性質(zhì)或證明其收斂過程,解釋為何某些方法比其他方法更為有效。而共享的問題接口也有助于分析,可以用來確定一種方法是否與另一種方法相同,或者哪些方法比其他方法更具普適性,從而有助于統(tǒng)一多樣性的文獻(xiàn)研究。

3.1.2 工具可以相互疊加使用

機(jī)器學(xué)習(xí)問題常常相互交織在一起。例如,生成模型,如擴(kuò)散模型,會(huì)利用經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)進(jìn)行回歸去噪處理。智能體是建立在生成文本模型之上的,而生成模型本身的核心是一個(gè)用于預(yù)測(cè)下一個(gè)標(biāo)記的神經(jīng)網(wǎng)絡(luò)。這意味著在機(jī)器學(xué)習(xí)中,不同的技術(shù)和模型往往可以相互構(gòu)建和擴(kuò)展,形成更為復(fù)雜和強(qiáng)大的系統(tǒng)。這些網(wǎng)絡(luò)都是通過像 Adam 這樣的隨機(jī)優(yōu)化方法進(jìn)行訓(xùn)練的,而黑箱優(yōu)化則用于選擇網(wǎng)絡(luò)的超參數(shù)。此外,采樣算法、黑箱優(yōu)化和智能體也可以結(jié)合之前數(shù)據(jù)訓(xùn)練的生成模型,用來提高數(shù)據(jù)生成的質(zhì)量 。

表1中列舉的問題并非詳盡無遺。其他問題包括不確定性量化,這在貝葉斯優(yōu)化和主動(dòng)學(xué)習(xí)中很有幫助,還有在保護(hù)隱私的同時(shí)合并工業(yè)制藥數(shù)據(jù)的聯(lián)邦學(xué)習(xí),以及用于普遍適用的分子描述符的表示學(xué)習(xí),因果學(xué)習(xí),檢索和壓縮等問題。

3.1.3 選擇適當(dāng)?shù)墓ぞ邅硗瓿扇蝿?wù)

盡管機(jī)器學(xué)習(xí)工具功能強(qiáng)大,但只有在正確的任務(wù)上使用時(shí)才能發(fā)揮最大作用。例如,如前所述,生成模型更適合處理一對(duì)多問題,例如3D結(jié)構(gòu)預(yù)測(cè)。基于梯度的優(yōu)化適用于損失函數(shù)可微分且能夠快速評(píng)估的情況,比如優(yōu)化神經(jīng)網(wǎng)絡(luò),但并不一定適用于優(yōu)化分子結(jié)構(gòu)。盡管分子設(shè)計(jì)常被視為一個(gè)黑箱優(yōu)化問題,但可以認(rèn)為,采樣更適合用于分子設(shè)計(jì):即通過尋找多樣且高質(zhì)量的結(jié)果來解決多目標(biāo)問題。相比之下,黑盒優(yōu)化通常只專注于當(dāng)前見過的最優(yōu)解。因此,分子設(shè)計(jì)不能僅僅依靠生成模型,因?yàn)樯赡P蛯W(xué)習(xí)的是給定數(shù)據(jù)集的分布。而分子設(shè)計(jì)則需要在已知數(shù)據(jù)分布之外尋找卓越的候選分子。

在化學(xué)領(lǐng)域,通常將問題視為一種搜索,就像在稻草堆中尋找一根針一樣。像傳統(tǒng)的對(duì)接方法會(huì)搜索所有可行的配體位置,而晶體結(jié)構(gòu)預(yù)測(cè)則會(huì)全面的搜索所有可能的原子排列。而基于虛擬篩選的分子設(shè)計(jì)會(huì)假設(shè)在龐大的虛擬庫中會(huì)找到足夠優(yōu)秀的“針”。當(dāng)可用計(jì)算資源足夠時(shí),基于搜索的視角非常有用,因?yàn)檫@可以全面建模一個(gè)空間,以證明不存在良好的解決方案。然而,對(duì)于許多應(yīng)用來說,全面的搜索可能過于繁瑣。想象一下,這就好比試圖在所有可能的英語文本中進(jìn)行搜索來寫一篇論文。這個(gè)時(shí)候一個(gè)有幫助的思考是,是否可以利用現(xiàn)有數(shù)據(jù)和算法將搜索問題重新框定為生成模型或采樣問題。

3.2 機(jī)器學(xué)習(xí)社區(qū)的主題與實(shí)踐

解決化學(xué)問題可以通過高級(jí)視角和社區(qū)實(shí)踐來輔助。為了將機(jī)器學(xué)習(xí)的觀點(diǎn)放在算法開發(fā)的背景下進(jìn)行說明,我們描述了ML社區(qū)中的共同主題和實(shí)踐,比如基準(zhǔn)測(cè)試、高度跨學(xué)科性,以及深度學(xué)習(xí)的痛苦教訓(xùn)。所有這些都將在下文展開。

3.2.1 基準(zhǔn)測(cè)試的作用

基準(zhǔn)測(cè)試在機(jī)器學(xué)習(xí)的發(fā)展過程中發(fā)揮著至關(guān)重要的作用,它推動(dòng)著模型和方法的持續(xù)改進(jìn)。在機(jī)器學(xué)習(xí)社區(qū)非常重視能夠提升現(xiàn)有技術(shù)水平的方法。因此每年至少有三大計(jì)算機(jī)科學(xué)會(huì)議(NeurIPS、ICML 和 ICLR),使得漸進(jìn)式的進(jìn)展時(shí)常出現(xiàn)。這些對(duì)現(xiàn)有基準(zhǔn)的細(xì)微迭代改進(jìn),隨著時(shí)間的推移,從而獲得的顯著性能提升。對(duì)于研究人員而言,基準(zhǔn)測(cè)試提供了明確的評(píng)估標(biāo)準(zhǔn),以幫助他們識(shí)別模型中哪些組成部分對(duì)性能影響最大,進(jìn)而可以實(shí)現(xiàn)更有針對(duì)性和更具影響力的發(fā)展。

機(jī)器學(xué)習(xí)研究的一個(gè)顯著特點(diǎn)是使用排行榜,提出的方法根據(jù)其在既定基準(zhǔn)測(cè)試中的表現(xiàn)進(jìn)行排名。為了能在主要會(huì)議上被接收,論文必須在技術(shù)上有所進(jìn)步或與當(dāng)前最先進(jìn)的水平相比具有競(jìng)爭(zhēng)力。因此這一評(píng)價(jià)機(jī)制推動(dòng)了各個(gè)領(lǐng)域的顯著進(jìn)展,從圖像分類到機(jī)器翻譯,再到圖像生成,甚至解決奧林匹克數(shù)學(xué)問題。如Open Catalyst Project正是利用這一機(jī)制為神經(jīng)網(wǎng)絡(luò)勢(shì)設(shè)定了一個(gè)基準(zhǔn),用來弛豫金屬表面上的有機(jī)吸附物。此外,該項(xiàng)目還提供了一個(gè)比以往更大的數(shù)據(jù)集,激勵(lì)了更強(qiáng)大的等變架構(gòu)的持續(xù)發(fā)展。從2020年到2023年,預(yù)測(cè)吸附能的成功率從1%提升至14%,所以目前的模型在預(yù)測(cè)吸附方面已開始變得實(shí)用起來了。而另一個(gè)名為Matbench Discovery的基準(zhǔn)則是在工業(yè)界引發(fā)了神經(jīng)力場(chǎng)的軍備競(jìng)賽。

然而,盡管基準(zhǔn)測(cè)試是一種強(qiáng)大的工具,但在化學(xué)領(lǐng)域的應(yīng)用中,我們必須持批判態(tài)度。因?yàn)椋m然領(lǐng)域?qū)<以诙x能夠轉(zhuǎn)化為實(shí)驗(yàn)室實(shí)際結(jié)果的有效基準(zhǔn)方面具有獨(dú)特優(yōu)勢(shì)。但在機(jī)器學(xué)習(xí)文獻(xiàn)中,問題的設(shè)置雖然針對(duì)計(jì)算性能進(jìn)行了優(yōu)化,卻仍可能與實(shí)驗(yàn)驗(yàn)證的實(shí)際情況不符。這種不一致可能導(dǎo)致關(guān)注點(diǎn)從解決實(shí)際問題轉(zhuǎn)移到單純推動(dòng)機(jī)器學(xué)習(xí)技術(shù)的發(fā)展上。隨著方法的成熟和基準(zhǔn)的飽和,新的、更相關(guān)的基準(zhǔn)亟需出現(xiàn)。

為機(jī)器學(xué)習(xí)研究人員定義和框定問題是一項(xiàng)至關(guān)重要的任務(wù)。這需要以一種更廣泛的機(jī)器學(xué)習(xí)社區(qū)易于理解的方式來提出重要的問題和行動(dòng)呼吁。通過這種方式,化學(xué)家能夠引導(dǎo)機(jī)器學(xué)習(xí)工具的發(fā)展,使其在實(shí)驗(yàn)研究中更有實(shí)際應(yīng)用的可能性。盡管創(chuàng)建數(shù)據(jù)集和基準(zhǔn)可能被視為機(jī)械性的工作,但它可以通過利用機(jī)器學(xué)習(xí)社區(qū)的共同努力來推動(dòng)解決困難問題的進(jìn)展。假設(shè)一個(gè)化學(xué)問題能夠被清晰地提煉并轉(zhuǎn)化為一個(gè)適當(dāng)基準(zhǔn)化的機(jī)器學(xué)習(xí)問題。那么,化學(xué)家們可以思考:如果這些舊任務(wù)能夠以顯著更快或更高的準(zhǔn)確性來解決,那么現(xiàn)在又有哪些新問題變得可以解決呢?如此一來,在化學(xué)與材料這一廣闊而激動(dòng)人心的領(lǐng)域中,還有許多科學(xué)問題等待探索。

3.2.2 跨學(xué)科:化學(xué)對(duì)機(jī)器學(xué)習(xí)的影響

雖然在計(jì)算機(jī)科學(xué)領(lǐng)域,基準(zhǔn)測(cè)試的迭代改進(jìn)是方法驅(qū)動(dòng)的機(jī)器學(xué)習(xí)的重要組成部分,但另一種創(chuàng)新方法則充分利用了機(jī)器學(xué)習(xí)社區(qū)的高度跨學(xué)科特性。眾所周知,機(jī)器學(xué)習(xí)已被廣泛應(yīng)用于健康、農(nóng)業(yè)、氣候、保護(hù)、物理和天文學(xué)等多個(gè)領(lǐng)域。因此我們最近提出了“應(yīng)用驅(qū)動(dòng)的機(jī)器學(xué)習(xí)[1]”作為一種新興范式,該范式根據(jù)不同領(lǐng)域中的實(shí)際任務(wù)來評(píng)估成功,方法和評(píng)估同時(shí)也受到領(lǐng)域知識(shí)的啟發(fā)與背景的影響。應(yīng)用驅(qū)動(dòng)的創(chuàng)新承認(rèn)了這些來自多樣領(lǐng)域的任務(wù)融入機(jī)器學(xué)習(xí)發(fā)展所帶來的影響。因此這些新任務(wù)激勵(lì)著新的算法的產(chǎn)生。

在化學(xué)領(lǐng)域,圖神經(jīng)網(wǎng)絡(luò)的發(fā)展源于對(duì)分子圖建模的需求。這一需求推動(dòng)了對(duì)社交網(wǎng)絡(luò)、引用網(wǎng)絡(luò)、計(jì)算機(jī)程序和數(shù)據(jù)庫等其他圖數(shù)據(jù)建模的實(shí)際進(jìn)展。反過來,圖機(jī)器學(xué)習(xí)也取得了理論上的進(jìn)展,特別是在通過Weisfeiler–Lehman測(cè)試分析圖神經(jīng)網(wǎng)絡(luò)的表達(dá)能力方面。此外,神經(jīng)網(wǎng)絡(luò)需要遵循三維空間的旋轉(zhuǎn)對(duì)稱性,這進(jìn)一步促成了等變架構(gòu)的發(fā)展。所有這些在尊重對(duì)稱性方面的方法論發(fā)展被統(tǒng)一到幾何深度學(xué)習(xí)的理論中去了,該理論展示了卷積神經(jīng)網(wǎng)絡(luò)、圖神經(jīng)網(wǎng)絡(luò)與Transformer之間的緊密聯(lián)系。

除了理論和方法,機(jī)器學(xué)習(xí)研究者們對(duì)機(jī)器學(xué)習(xí)在解決全球健康和氣候變化等現(xiàn)實(shí)問題方面的潛力感到興奮。這種興奮表現(xiàn)為強(qiáng)烈的學(xué)習(xí)熱情,這體現(xiàn)在了博客文章、教學(xué)材料以及包含錄制講座的在線閱讀小組社區(qū)的蓬勃發(fā)展上。許多關(guān)注機(jī)器學(xué)習(xí)在化學(xué)領(lǐng)域應(yīng)用的研討會(huì)在主要的機(jī)器學(xué)習(xí)會(huì)議上舉行,如神經(jīng)信息處理系統(tǒng)大會(huì)(NeurIPS)、國(guó)際機(jī)器學(xué)習(xí)大會(huì)(ICML)和國(guó)際學(xué)習(xí)表征會(huì)議(ICLR)。這些資源的廣泛可用性也反映了機(jī)器學(xué)習(xí)社區(qū)對(duì)開放性的重視。會(huì)議論文可以被免費(fèi)發(fā)布,預(yù)印本受到重視,并且共享代碼被視為理所當(dāng)然。甚至還有專門接受博客文章的會(huì)議類別

在與機(jī)器學(xué)習(xí)(ML,Machine Learning)研究人員交流時(shí),要對(duì)他們最初的假設(shè)保持耐心。通常,在機(jī)器學(xué)習(xí)文獻(xiàn)中會(huì)提出多個(gè)假設(shè),但這些假設(shè)在實(shí)際實(shí)驗(yàn)中往往并不適用。例如,在分子設(shè)計(jì)中,常常忽略了分子的可合成性,或者在反應(yīng)預(yù)測(cè)中忽略了反應(yīng)條件。這反映了不同領(lǐng)域?qū)徃迦说膬r(jià)值觀和假設(shè)差異。我們很容易對(duì)這些問題做出評(píng)判,并認(rèn)為這些方法幼稚,這樣的批評(píng)也是有益的。但我們不應(yīng)因此而全盤否定所有努力:我們應(yīng)該問,如果能夠妥善處理這些額外的假設(shè),這種方法是否能幫助解決我們的具體問題?由于機(jī)器學(xué)習(xí)從業(yè)者來自不同背景,他們可能不會(huì)立即理解化學(xué)領(lǐng)域的行話、假設(shè)和實(shí)驗(yàn)設(shè)置,但他們是渴望學(xué)習(xí)的。

3.2.3 慘痛的教訓(xùn):平衡可擴(kuò)展性與領(lǐng)域知識(shí)

AlexNet的問世標(biāo)志著深度學(xué)習(xí)革命的開始,展示了神經(jīng)網(wǎng)絡(luò)在利用圖形處理單元(GPU)的計(jì)算能力進(jìn)行訓(xùn)練時(shí),如何在圖像分類方面的準(zhǔn)確性上遠(yuǎn)超基于手工設(shè)計(jì)特征的模型。通過觀察神經(jīng)擴(kuò)展法則,我們明確看到了計(jì)算規(guī)模的力量,這些法則經(jīng)驗(yàn)性地且可靠地預(yù)測(cè)了隨著計(jì)算能力、數(shù)據(jù)量和參數(shù)數(shù)量的增加,模型性能將如何改善。這些擴(kuò)展法則激勵(lì)了GPT系列語言模型的發(fā)展,最終催生了諸如ChatGPT這樣的先進(jìn)應(yīng)用。

根據(jù)規(guī)模法則,在設(shè)計(jì)算法時(shí),我們應(yīng)謹(jǐn)慎運(yùn)用領(lǐng)域知識(shí)。機(jī)器學(xué)習(xí)中的“慘痛的教訓(xùn)”提醒我們不要過于依賴領(lǐng)域知識(shí)來設(shè)計(jì)算法。雖然手工制作的領(lǐng)域特定設(shè)計(jì)選擇可能在短期內(nèi)帶來改進(jìn),但那些更好地利用計(jì)算規(guī)模的方法往往在長(zhǎng)期內(nèi)表現(xiàn)得更為出色。在文本、圖像、語音、國(guó)際象棋和圍棋等多個(gè)領(lǐng)域,依賴人類直覺和歸納偏差的方法已經(jīng)被可以充分利用摩爾定律所帶來的計(jì)算能力指數(shù)增長(zhǎng)的“窮舉方法”所取代。

作為化學(xué)家,令人感到愉快的是開發(fā)受到我們化學(xué)知識(shí)啟發(fā)的方法,例如通過將量子化學(xué)描述符注入回歸分析,或?qū)ο到y(tǒng)施加物理約束。然而,我們必須提醒自己,人類對(duì)問題的理解并不直接意味著我們能夠設(shè)計(jì)出解決該問題的算法。盡管在機(jī)器學(xué)習(xí)研究中對(duì)語言學(xué)有著廣泛的知識(shí),但像ChatGPT這樣的模型也是直到研究人員在大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練后才得以實(shí)現(xiàn)。

規(guī)模的力量可能讓人感到恐懼。即便是像在神經(jīng)網(wǎng)絡(luò)中強(qiáng)制執(zhí)行等變性這樣受到廣泛關(guān)注的假設(shè),最近的研究也對(duì)此提出了挑戰(zhàn):諸如概率對(duì)稱化和隨機(jī)幀平均等方法顯示,施加結(jié)構(gòu)約束并不是絕對(duì)必要的。而像AlphaFold和分子構(gòu)象場(chǎng)這樣的模型則證明,使用隨機(jī)旋轉(zhuǎn)的訓(xùn)練樣本進(jìn)行訓(xùn)練的模型能夠自動(dòng)學(xué)習(xí)旋轉(zhuǎn)等變性,但這需要更高的計(jì)算量和更長(zhǎng)的訓(xùn)練時(shí)間。

在當(dāng)前階段,規(guī)模和數(shù)據(jù)仍然有限。例如,帶有反應(yīng)規(guī)則的專家系統(tǒng)依然是當(dāng)今合成規(guī)劃中最有效的方法,這可能是由于收集反應(yīng)數(shù)據(jù)的困難所導(dǎo)致的。此外,我們可以進(jìn)一步減少歸納偏差,訓(xùn)練語言模型直接生成3D分子結(jié)構(gòu)的.xyz文件,正如我們最近所做的那樣,與更為定制化的晶體結(jié)構(gòu)預(yù)測(cè)方法相比,其效果也相當(dāng)不錯(cuò)。然而,正如Alampara等人所說,目前的語言模型無法編碼表示特定材料屬性所需的幾何信息。

因此,這個(gè)慘痛的教訓(xùn)并不意味著對(duì)算法施加歸納偏置永遠(yuǎn)是錯(cuò)誤的。我們必須在利用計(jì)算能力和領(lǐng)域?qū)I(yè)知識(shí)之間找到一個(gè)最佳平衡。這一點(diǎn)在化學(xué)領(lǐng)域尤為重要:與語言和圖像等可以在互聯(lián)網(wǎng)規(guī)模上獲取的數(shù)據(jù)不同,化學(xué)數(shù)據(jù)相對(duì)稀缺,并且需要通過真實(shí)世界的實(shí)驗(yàn)來獲得。因此,設(shè)計(jì)能夠最有效利用這些有限數(shù)據(jù)的算法至關(guān)重要。手工設(shè)計(jì)的算法可以在短期內(nèi)實(shí)現(xiàn)更好的預(yù)測(cè)和更快的仿真,從而推動(dòng)數(shù)據(jù)生成,最終達(dá)到基礎(chǔ)模型所需的數(shù)據(jù)規(guī)模。

領(lǐng)域知識(shí)的另一個(gè)關(guān)鍵作用是確定問題的合適概念。我們應(yīng)該是從基本原理出發(fā)進(jìn)行建模,比如基于物理的模擬,還是將其視為一個(gè)化學(xué)信息學(xué)問題呢?這個(gè)問題在更廣泛的背景中如何體現(xiàn)的呢?例如,預(yù)測(cè)藥物對(duì)患者的影響可以通過模擬整個(gè)個(gè)體來實(shí)現(xiàn),盡管目前這在實(shí)踐中并不可行,或者也可以通過統(tǒng)計(jì)建模或因果建模的方法來處理。在某個(gè)時(shí)刻,這些不同層次的模型需要進(jìn)行協(xié)調(diào),而領(lǐng)域科學(xué)家在描繪這一結(jié)構(gòu)層級(jí)模型中是至關(guān)重要的。他們幫助判斷何時(shí)假設(shè)是合理的,何時(shí)又不合理。雖然機(jī)器學(xué)習(xí)工具無法獨(dú)立解決這些問題,但它們可以在整合不同模型組件方面提供顯著幫助。

參考文獻(xiàn)?????[1]

R. David, A. Aspuru-Guzik, B. Sara, D. Bistra, D. L. Priya, G. Marzyeh, K. Hannah, M. Claire, R. Esther, T. Milind and W. Adam, Position: Application-Driven Innovation in Machine Learning, Proceedings of the 41st International Conference on Machine Learning, ed. R. Salakhutdinov, Z.Kolter, K. Heller, A. Weller, N. Oliver, J. Scarlett and F. Berkenkamp, PMLR,2024, vol. 235, pp. 42707–42718[:https://proceedings.mlr.press/v235/rolnick24a.html

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 測(cè)試
    +關(guān)注

    關(guān)注

    8

    文章

    5706

    瀏覽量

    128882
  • 人工智能
    +關(guān)注

    關(guān)注

    1807

    文章

    49029

    瀏覽量

    249575
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8503

    瀏覽量

    134631
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    EBSD在材料科學(xué)中的優(yōu)勢(shì)分析

    材料科學(xué)中,對(duì)晶體結(jié)構(gòu)和晶粒取向的深入研究對(duì)于揭示材料性能具有決定性作用。傳統(tǒng)技術(shù),如X光衍射和中子衍射,雖然能夠提供宏觀層面的晶體結(jié)構(gòu)和取向信息,但它們無法將這些信息與微觀結(jié)構(gòu)直接關(guān)聯(lián),也無
    的頭像 發(fā)表于 12-26 14:46 ?602次閱讀
    EBSD在<b class='flag-5'>材料科學(xué)</b>中的優(yōu)勢(shì)分析

    安泰高電壓功率放大器:材料科學(xué)與工程學(xué)科研究的重要推手!

    材料科學(xué)與工程是一門涵蓋廣泛領(lǐng)域的學(xué)科,涉及固體物理學(xué)、化學(xué)、工程學(xué)等多個(gè)學(xué)科的交叉領(lǐng)域。 高壓功率放大器 作為材料測(cè)試
    的頭像 發(fā)表于 12-23 11:02 ?374次閱讀
    安泰高電壓功率放大器:<b class='flag-5'>材料科學(xué)</b>與工程學(xué)科<b class='flag-5'>研究</b>的重要推手!

    電子背散射衍射技術(shù)(EBSD)在材料科學(xué)中的應(yīng)用與解讀

    EBSD技術(shù)的革新電子背散射衍射技術(shù)(EBSD)以其獨(dú)特的分析能力,成為了揭示材料微觀結(jié)構(gòu)秘密的關(guān)鍵技術(shù)盡管EBSD技術(shù)的商業(yè)應(yīng)用起步較晚,但其發(fā)展勢(shì)頭強(qiáng)勁,迅速成為材料科學(xué)研究中的核心工具
    的頭像 發(fā)表于 12-16 17:17 ?1086次閱讀
    電子背散射衍射技術(shù)(EBSD)在<b class='flag-5'>材料科學(xué)</b>中的應(yīng)用與解讀

    何在化學(xué)材料科學(xué)領(lǐng)域開展有影響力的人工智能研究?(三)

    第三部分編譯后的內(nèi)容:4.如何解決科學(xué)問題?在掌握了上述的工具和視角后,我們將提出一些建議,幫助您在化學(xué)領(lǐng)域選擇具有影響力研究課題,并介紹
    的頭像 發(fā)表于 12-03 01:02 ?493次閱讀
    如<b class='flag-5'>何在</b><b class='flag-5'>化學(xué)</b>和<b class='flag-5'>材料科學(xué)</b><b class='flag-5'>領(lǐng)域</b><b class='flag-5'>開展</b><b class='flag-5'>有影響力</b><b class='flag-5'>的人工智能</b><b class='flag-5'>研究</b>?(三)

    何在化學(xué)材料科學(xué)領(lǐng)域開展有影響力的人工智能研究?(一)

    寫在開頭近期,我有幸參加了多場(chǎng)既包括學(xué)術(shù)研討又涵蓋業(yè)界實(shí)踐的會(huì)議,這些會(huì)議都集中討論了人工智能科學(xué)的結(jié)合。而通過這些深入的交流讓我深刻體會(huì)到,在科學(xué)技術(shù)領(lǐng)域中,尤其是‘AIforScience
    的頭像 發(fā)表于 12-03 01:02 ?1985次閱讀
    如<b class='flag-5'>何在</b><b class='flag-5'>化學(xué)</b>和<b class='flag-5'>材料科學(xué)</b><b class='flag-5'>領(lǐng)域</b><b class='flag-5'>開展</b><b class='flag-5'>有影響力</b><b class='flag-5'>的人工智能</b><b class='flag-5'>研究</b>?(一)

    共聚焦激光顯微鏡在材料科學(xué)中的應(yīng)用

    材料科學(xué)研究材料的結(jié)構(gòu)、性質(zhì)、加工和應(yīng)用的學(xué)科。隨著科技的發(fā)展,對(duì)材料性能的要求越來越高,這就需要更精確的表征手段來研究
    的頭像 發(fā)表于 10-30 09:44 ?761次閱讀

    電子背散射衍射(EBSD)在材料科學(xué)中的應(yīng)用與解讀

    EBSD技術(shù)的興起與成熟電子背散射衍射(EBSD)技術(shù),作為材料科學(xué)領(lǐng)域的一項(xiàng)革命性技術(shù),自其商業(yè)化以來,已經(jīng)迅速成為材料研究者們的重要工具。這一技術(shù)的發(fā)展得益于信息技術(shù)的飛速進(jìn)步,使
    的頭像 發(fā)表于 10-29 16:14 ?680次閱讀
    電子背散射衍射(EBSD)在<b class='flag-5'>材料科學(xué)</b>中的應(yīng)用與解讀

    《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第6章人AI與能源科學(xué)讀后感

    幸得一好書,特此來分享。感謝平臺(tái),感謝作者。受益匪淺。 在閱讀《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》的第6章后,我深刻感受到人工智能在能源科學(xué)
    發(fā)表于 10-14 09:27

    AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感

    很幸運(yùn)社區(qū)給我一個(gè)閱讀此書的機(jī)會(huì),感謝平臺(tái)。 《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章關(guān)于AI與生命科學(xué)的部分,為我們揭示了人工智能技術(shù)在生命
    發(fā)表于 10-14 09:21

    《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第章AI for Science的技術(shù)支撐學(xué)習(xí)心得

    ,推動(dòng)科學(xué)研究的深入發(fā)展。 總結(jié) 通過閱讀《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第章,我對(duì)AI for Science的技術(shù)支撐有了更加全面和深入的理解。我深刻認(rèn)識(shí)到
    發(fā)表于 10-14 09:16

    《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第一章人工智能驅(qū)動(dòng)的科學(xué)創(chuàng)新學(xué)習(xí)心得

    的效率,還為科學(xué)研究提供了前所未有的洞察和精確度。例如,在生物學(xué)領(lǐng)域,AI能夠幫助科學(xué)家快速識(shí)別基因序列中的關(guān)鍵變異,加速新藥研發(fā)進(jìn)程。 2. 跨學(xué)科融合的新范式 書中強(qiáng)調(diào),
    發(fā)表于 10-14 09:12

    risc-v在人工智能圖像處理應(yīng)用前景分析

    定制性。這些特點(diǎn)使得RISC-V在多個(gè)領(lǐng)域,包括人工智能圖像處理領(lǐng)域,具有顯著的優(yōu)勢(shì)。 、RISC-V在人工智能圖像處理中的優(yōu)勢(shì) 開源性和
    發(fā)表于 09-28 11:00

    DSC:材料科學(xué)的洞察之眼

    材料科學(xué)的探索之旅中,差示掃描量熱儀(DifferentialScanningCalorimetry,簡(jiǎn)稱DSC)猶如一把精準(zhǔn)的鑰匙,開啟著材料性能的奧秘之門。DSC,這一精密的熱分析技術(shù),通過
    的頭像 發(fā)表于 09-09 16:26 ?1648次閱讀
    DSC:<b class='flag-5'>材料科學(xué)</b>的洞察之眼

    名單公布!【書籍評(píng)測(cè)活動(dòng)NO.44】AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新

    材料基因組工程的推動(dòng)下,人工智能如何與材料科學(xué)結(jié)合,加快傳統(tǒng)材料和新型材料的開發(fā)過程。 第4章介紹了人工
    發(fā)表于 09-09 13:54

    安泰高壓放大器在極化特性及在材料科學(xué)中的應(yīng)用

    材料科學(xué)中的極化特性是指材料中電荷分布的變化現(xiàn)象。這一特性不僅對(duì)材料的電學(xué)性質(zhì)產(chǎn)生深遠(yuǎn)影響,而且在各種應(yīng)用中發(fā)揮著關(guān)鍵作用。下面將深入探討極化特性的概念以及它在材料科學(xué)中的多重應(yīng)用。
    的頭像 發(fā)表于 09-04 14:49 ?705次閱讀
    安泰高壓放大器在極化特性及在<b class='flag-5'>材料科學(xué)</b>中的應(yīng)用