來源:內(nèi)容由半導體行業(yè)觀察(ID:icbank)編譯自IEEE,謝謝。
每年,人工智能指數(shù)都會以更大的虛擬沖擊力登陸虛擬桌面——今年,它的 393 頁證明了人工智能將在 2023 年迎來一個真正重要的一年。在過去的三年里,IEEE Spectrum閱讀了整個該死的事情,并拿出了一系列總結(jié)人工智能當前狀態(tài)的圖表。
今年的報告由斯坦福以人為中心的人工智能研究所 (HAI)發(fā)布,增加了有關負責任人工智能的擴展章節(jié)和有關科學和醫(yī)學領域人工智能的新章節(jié),以及通常對研發(fā)、技術性能、經(jīng)濟的綜述、教育、政策和治理、多樣性和公眾輿論。由于這是一個非常長的報告,我們不能完整翻譯,但筆者就感興趣的部分,做了一些摘譯:
AI,一些數(shù)據(jù)
在前沿AI研究章節(jié)中,報告表示,Epoch AI 是一群致力于研究和預測先進人工智能演變的研究人員。他們維護著 20 世紀 50 年代以來發(fā)布的人工智能和機器學習模型的數(shù)據(jù)庫,根據(jù)最新進展、歷史意義或高引用率等標準選擇條目。分析這些模型可以全面概述機器學習領域近年來和過去幾十年的演變。4數(shù)據(jù)集中可能缺少某些模型,然而,數(shù)據(jù)集可以揭示相對趨勢。直到 2014 年,學術界主導了機器學習模型的發(fā)布。從那時起,工業(yè)就占據(jù)了主導地位。2023 年,工業(yè)界產(chǎn)生了 51 個著名的機器學習模型,而學術界只有 15 個(圖 1.3.1)。值得注意的是,2023 年產(chǎn)學合作產(chǎn)生了 21 個著名模型,再創(chuàng)新高。為了說明人工智能不斷發(fā)展的地緣政治格局,人工智能指數(shù)研究團隊分析了著名模型的原產(chǎn)國。
圖 1.3.2 顯示了研究人員所屬機構所在地的著名機器學習模型總數(shù)。2023 年,美國以 61 個著名機器學習模型領先,其次是中國(15 個)和法國(8 個)。自 2019 年以來,歐盟和英國在著名人工智能模型數(shù)量上首次超過中國產(chǎn)生(圖1.3.3)。自2003年以來,美國生產(chǎn)的模型數(shù)量超過了英國、中國和加拿大等其他主要地理區(qū)域(圖1.3.4)。
報告表示,人工智能模型中的術語“計算”表示訓練和操作機器學習模型所需的計算資源。一般來說,模型的復雜性和訓練數(shù)據(jù)集的大小直接影響所需的計算量。模型越復雜,底層訓練數(shù)據(jù)越大,訓練所需的計算量就越大。
圖 1.3.6 直觀地展示了過去 20 年著名機器學習模型所需的訓練計算。最近,著名人工智能模型的計算使用量呈指數(shù)級增長。6這種趨勢在過去五年中尤為明顯。計算需求的快速增長具有至關重要的影響。例如,需要更多計算的模型通常具有更大的環(huán)境足跡,并且公司通常可以比學術機構更多地訪問計算資源。
圖 1.3.7?
突出顯示了 2012 年以來著名機器學習模型的訓練計算情況。例如,AlexNet 是推廣使用 GPU 改進 AI 模型的標準實踐的論文之一,估計需要 470 petaFLOP 進行訓練。最初的 Transformer 于 2017 年發(fā)布,需要大約 7,400 petaFLOPs。谷歌的 Gemini Ultra 是當前最先進的基礎模型之一,需要 500 億petaFLOPs。
訓練模型,到底有多耗錢
關于基礎模型的討論中的一個突出話題是它們的推測成本。盡管人工智能公司很少透露訓練模型的費用,但人們普遍認為這些成本已達數(shù)百萬美元,并且還在不斷上升。例如,OpenAI 的首席執(zhí)行官 Sam Altman 提到,GPT-4 的訓練成本超過 1 億美元。訓練費用的增加實際上使傳統(tǒng)上人工智能研究中心的大學無法開發(fā)自己的前沿基礎模型。作為回應,例如拜登總統(tǒng)關于人工智能的行政命令,試圖通過創(chuàng)建國家人工智能研究資源來平衡工業(yè)界和學術界之間的競爭環(huán)境,該資源將向非工業(yè)參與者提供進行更高水平人工智能所需的計算和數(shù)據(jù)。了解訓練人工智能模型的成本很重要,但有關這些成本的詳細信息仍然很少。在去年的出版物中,人工智能指數(shù)是最早對基礎模型的訓練成本進行估算的指數(shù)之一。今年,AI Index 與人工智能研究機構 Epoch AI 合作,大幅增強和鞏固了 AI 訓練成本估算的穩(wěn)健性。為了估算前沿模型的成本,Epoch 團隊還分析了訓練時長,使用與模型相關的出版物、新聞稿或技術報告中的信息,如訓練硬件的類型、數(shù)量和利用率。圖 1.3.21 根據(jù)云計算租賃價格直觀地顯示了與選定 AI 模型相關的估計培訓成本。AI Index的估計證實了人們的懷疑,即近年來模型訓練成本大幅增加。例如,2017 年,最初的 Transformer 模型引入了幾乎所有現(xiàn)代LLM的架構,訓練成本約為 900 美元。RoBERTa Large 于 2019 年發(fā)布,在許多規(guī)范理解上取得了最先進的結(jié)果 SQuAD 和 GLUE 等基準測試的訓練成本約為 160,000 美元。快進到 2023 年,OpenAI 的 GPT-4 和谷歌的 Gemini Ultra 的訓練成本估計分別約為 7800 萬美元和 1.91 億美元。
正如之前的AI Index報告所確定的那樣,人工智能模型的訓練成本與其計算要求之間存在直接相關性。如圖 1.3.23 所示,具有更多計算訓練的模型需要更高的訓練成本。
最后IEEE通過15張圖,總結(jié)人工智能現(xiàn)狀。
15張圖,總結(jié)人工智能現(xiàn)狀
1. 生成式人工智能投資猛增盡管去年企業(yè)投資總體下降,但對生成式人工智能的投資卻大幅增長。今年報告的主編Nestor Maslej告訴IEEE Spectrum,這種繁榮預示著 2023 年的更廣泛趨勢,因為世界正在努力應對ChatGPT和圖像生成DALL-E 2等生成人工智能系統(tǒng)的新功能和風險?!叭ツ甑墓适率顷P于人們對生成人工智能的反應,”Maslej 說,“無論是在政策方面,無論是在公眾輿論中,還是在擁有更多投資的行業(yè)中。”報告中的另一張圖表顯示,生成式人工智能的私人投資大部分發(fā)生在美國?!?/p>
2.谷歌在基礎模型競賽中占據(jù)主導地位
基礎模型是大型多用途模型,例如,OpenAI 的GPT-3和GPT-4是使ChatGPT用戶能夠編寫代碼或莎士比亞十四行詩的基礎模型。由于訓練這些模型通常需要大量資源,因此工業(yè)界現(xiàn)在制造了大部分模型,而學術界只提供了少量資源。公司發(fā)布基礎模型既是為了推動最先進的技術發(fā)展,也是為了為開發(fā)人員提供構建產(chǎn)品和服務的基礎。谷歌在 2023 年發(fā)布了最多的內(nèi)容。
3.封閉模型優(yōu)于開放模型
目前人工智能領域的熱門爭論之一是基礎模型應該開放還是封閉,一些人激烈地認為開放模型是危險的,而另一些人則堅持開放模型驅(qū)動創(chuàng)新。AI 指數(shù)并沒有介入這場爭論,而是著眼于諸如已發(fā)布了多少開放式和封閉式模型等趨勢(此處未包含的另一張圖表顯示,在 2023 年發(fā)布的 149 個基礎模型中,有 98 個是開放式的, 23 個通過 API 提供了部分訪問權限,28 個已封閉)。
上圖揭示了另一個方面:在許多常用的基準測試中,封閉模型的表現(xiàn)優(yōu)于開放模型。Maslej 表示,關于開放式與封閉式的爭論“通常圍繞風險擔憂,但很少討論是否存在有意義的性能權衡”。
4.基礎模型變得超級昂貴
這就是為什么工業(yè)界在基礎模型領域占據(jù)主導地位:培訓一個大模型需要大量資金。但具體有多深呢?人工智能公司很少透露訓練模型所涉及的費用,但人工智能指數(shù)通過與人工智能研究組織Epoch AI合作,超出了典型的猜測。報告解釋說,為了做出成本估算,Epoch 團隊利用從出版物、新聞稿和技術報告中收集的信息“分析了培訓持續(xù)時間以及培訓硬件的類型、數(shù)量和利用率”。有趣的是,谷歌2017 年的 Transformer 模型引入了支撐當今幾乎所有大型語言模型的架構,訓練費用僅為 930 美元。
5.它們的碳足跡很大
AI Index 團隊還估算了某些大型語言模型的碳足跡。報告指出,模型之間的差異是由于模型大小、數(shù)據(jù)中心能源效率和能源網(wǎng)碳強度等因素造成的。報告中的另一張圖表(此處未包含)顯示了對與推理相關的排放的初步猜測(當模型正在執(zhí)行其訓練的工作時),并呼吁對此主題進行更多披露。正如報告指出的那樣:“雖然每次查詢的推理排放量可能相對較低,但當模型每天被查詢數(shù)千次甚至數(shù)百萬次時,總影響可能超過訓練的影響?!?/p>
6. 美國在基礎模型方面處于領先地位
雖然 Maslej 表示該報告并不是試圖“宣布這場競賽的獲勝者”,但他確實指出,美國在幾個方面處于領先地位,包括發(fā)布的基礎模型數(shù)量(下圖)以及被視為重大技術進步的人工智能系統(tǒng)數(shù)量。不過,他指出,中國在其他方面處于領先地位,包括人工智能專利授權和工業(yè)機器人安裝。
7. 業(yè)界呼喚新博士
考慮到之前討論的有關行業(yè)在生成人工智能方面獲得大量投資并發(fā)布大量令人興奮的模型的數(shù)據(jù),這一點并不令人意外。2022 年(該指數(shù)有數(shù)據(jù)的最近一年),北美 70% 的新人工智能博士在工業(yè)界就業(yè)。這是過去幾年趨勢的延續(xù)。
8.多樣性方面取得的一些進展
多年來,在減少人工智能中白人和男性的數(shù)量方面幾乎沒有取得任何進展。但今年的報告提供了一些充滿希望的跡象。例如,參加 AP 計算機科學考試的非白人和女性學生數(shù)量正在增加。上圖顯示了種族趨勢,而另一張圖表(此處未包含)顯示,現(xiàn)在參加考試的學生中有 30% 是女孩。
報告中的另一張圖表顯示,在本科階段,獲得計算機科學學士學位的北美學生的種族多樣性也呈現(xiàn)出積極的趨勢,盡管獲得計算機科學學士學位的女性人數(shù)在過去五年中幾乎沒有變化。Maslej 說:“重要的是要知道這里還有很多工作要做。”
9. 財報電話會議上的閑聊
企業(yè)已經(jīng)意識到人工智能的可能性。該指數(shù)從市場情報公司Quid獲取了有關財富 500 強公司財報電話會議的數(shù)據(jù),該公司使用自然語言處理工具掃描所有提及“人工智能”、“AI”、“機器學習”、“ML”和“深度學習?!苯?80% 的公司在電話會議中討論了人工智能。“我認為企業(yè)領導者擔心,如果他們不使用這項技術,他們就會錯過機會,”馬斯萊說。
雖然其中一些閑聊可能只是首席執(zhí)行官們閑聊流行語,但報告中的另一張圖表顯示,麥肯錫調(diào)查中 55% 的公司已經(jīng)在至少一個業(yè)務部門實施了人工智能。
10. 成本下降,收入上升
這就是為什么人工智能不僅僅是一個企業(yè)流行語:麥肯錫的同一項調(diào)查顯示,人工智能的整合導致公司成本下降,收入上升??傮w而言,42% 的受訪者表示成本降低了,59% 的受訪者聲稱收入增加了。
報告中的其他圖表表明,這種對利潤的影響反映了效率的提高和工人生產(chǎn)力的提高。2023年,不同領域的多項研究表明,人工智能使工人能夠更快地完成任務并生產(chǎn)出更高質(zhì)量的工作。一項研究著眼于使用Copilot 的程序員,而其他研究則著眼于顧問、呼叫中心代理和法學院學生。“這些研究還表明,盡管每個工人都受益,但人工智能對低技能工人的幫助比對高技能工人的幫助更大,”馬斯萊說。
11.企業(yè)確實感知到風險
今年,AI Index 團隊對全球 1000 家收入至少 5 億美元的公司進行了調(diào)查,以了解企業(yè)如何看待負責任的 AI。結(jié)果表明,隱私和數(shù)據(jù)治理被認為是全球最大的風險,而公平性(通常在算法偏差方面討論)仍然沒有得到大多數(shù)公司的認可。報告中的另一張圖表顯示,企業(yè)正在針對其感知的風險采取行動:跨地區(qū)的大多數(shù)組織都實施了至少一項負責任的人工智能措施來應對相關風險。
12.人工智能還不能在所有事情上擊敗人類......
近年來,人工智能系統(tǒng)在一系列任務上的表現(xiàn)都優(yōu)于人類,包括閱讀理解和視覺推理,Maslej 指出,人工智能性能改進的步伐也在加快?!笆昵?,有了像 ImageNet 這樣的基準,你可以依靠它來挑戰(zhàn)人工智能研究人員五六年,”他說。“現(xiàn)在,針對競賽級別的數(shù)學引入了新的基準,人工智能從 30% 開始,然后在一年內(nèi)達到 90%?!彪m然人類在復雜的認知任務中仍然表現(xiàn)優(yōu)于人工智能系統(tǒng),但讓我們明年看看情況如何。
13. 制定人工智能責任規(guī)范
當人工智能公司準備發(fā)布大型模型時,標準做法是根據(jù)該領域的流行基準對其進行測試,從而讓人工智能社區(qū)了解模型在技術性能方面如何相互比較。然而,根據(jù)負責任的 AI 基準測試模型的情況并不常見,這些基準評估RealToxicityPrompts和ToxiGen、響應中的BOLD和BBQ以及TruthfulQA等。這種情況開始發(fā)生變化,因為人們越來越意識到,根據(jù)這些基準檢查模型是負責任的事情。然而,報告中的另一張圖表顯示缺乏一致性:開發(fā)人員正在根據(jù)不同的基準測試他們的模型,這使得比較變得更加困難。
14.法律既促進又限制人工智能
2016年至2023年間,人工智能指數(shù)發(fā)現(xiàn),有33個國家通過了至少一項與人工智能相關的法律,其中大部分行動發(fā)生在美國和歐洲;在此期間,總共通過了 148 項與人工智能相關的法案。該指數(shù)研究人員還將法案分為旨在增強國家人工智能能力的擴張性法律或限制人工智能應用和使用的限制性法律。盡管許多法案繼續(xù)推動人工智能發(fā)展,但研究人員發(fā)現(xiàn)全球存在限制性立法的趨勢。
15.人工智能讓人緊張
該指數(shù)的民意數(shù)據(jù)來自一項關于人工智能態(tài)度的全球調(diào)查,調(diào)查來自 31 個國家的 22,816 名成年人(16 歲至 74 歲)。超過一半的受訪者表示人工智能讓他們感到緊張,這一比例高于去年的 39%。三分之二的人現(xiàn)在預計人工智能將在未來幾年深刻改變他們的日常生活。
Maslej 指出,該指數(shù)中的其他圖表顯示不同人群的觀點存在顯著差異,年輕人更傾向于對人工智能將如何改變他們的生活持樂觀態(tài)度。有趣的是,“這種人工智能悲觀情緒很多來自西方發(fā)達國家”,他說,而印度尼西亞和泰國等地的受訪者則表示,他們預計人工智能的利大于弊。
-
AI
+關注
關注
88文章
35147瀏覽量
279830 -
人工智能
+關注
關注
1806文章
49019瀏覽量
249473 -
大模型
+關注
關注
2文章
3143瀏覽量
4067
發(fā)布評論請先 登錄
評論