久久这里只有精品国产精品99,91最新国产专区

一、前言--ChatGPT真的產(chǎn)生心智了嗎？

來自斯坦福大學的最新研究結論，一經(jīng)發(fā)出就造成了學術圈的轟動，“原本認為是人類獨有的心智理論（Theory of Mind，ToM），已經(jīng)出現(xiàn)在ChatGPT背后的AI模型上”。所謂心智理論，就是理解他人或自己心理狀態(tài)的能力，包括同理心、情緒、意圖等。這項研究中，作者發(fā)現(xiàn)：davinci-002版本的GPT3已經(jīng)可以解決70%的心智理論任務，相當于7歲兒童。

2023 年，面對鋪天蓋地的 AI 應用，我們?nèi)祟惤K于意識到，有一些東西被永遠的改變了。但在這波 AI 熱潮之中，只有一個應用是真正嚇人的——ChatGPT。由于心智無法通過量化評判，但ChatGPT確實滿足智能的定義，例如推理、計劃、解決問題、抽象思考、理解復雜想法、快速學習。但ChatGPT本質(zhì)上只做一件事情：續(xù)寫。當我們給出前N個詞匯的時候，如果一個模型能夠告訴我們第“N+1”個詞匯大概率會是什么，我們就認為模型掌握了語言的基本規(guī)律。

為什么光憑“續(xù)寫”就可以產(chǎn)生智能？以下是摘自知乎的一段回答：

“為什么這么一個簡單的接話茬能力讓ChatGPT看起來能夠解決各種各樣的任務呢？因為我們?nèi)祟惔蟛糠值娜蝿斩际且哉Z言為載體的。當我們前面說了一些話，它把接下來的話接上，任務就完成了。ChatGPT作為一個大語言模型，目的就是“把話接上”，而把話接上這件事情可以在不知不覺中幫我們完成各種任務?！?，這也解釋了為什么ChatGPT有時候瞎胡謅，他并沒有撒謊，他不知道對錯，他只是想把對話順利進行下去。

如果真的像上述所說，那GPT似乎沒有我們想象的神奇，看起來只是一個基于大數(shù)據(jù)和統(tǒng)計學的語言模型，通過它學習的海量文本預測下一個概率最高的詞。就像是有一個容量巨大的“數(shù)據(jù)庫”，所有的回答都是從這個數(shù)據(jù)庫里拿到的。

但奇怪的是，ChatGPT又可以回答他沒有學習過的問題，最具代表性的是訓練集中不可能存在的六位數(shù)加法，這顯然無法通過統(tǒng)計學的方式來預測下一個最高概率的數(shù)字是多少。

不僅如此，GPT還學習到了在對話中臨時學習的能力。

看起來ChatGPT除了“續(xù)寫”外，還真的產(chǎn)生了邏輯推理能力。這些統(tǒng)計之外的新能力是如何出現(xiàn)的？

如何讓機器理解語言，如何讓代碼存儲知識？這篇文章，只是為了回答一個問題：一段代碼是如何擁有心智的？

二、Attention is all you need--注意力機制

搜索所有有關ChatGPT的文章，發(fā)現(xiàn)有一個詞的出現(xiàn)頻率特別高，Attention is all you need。ChatGPT的一切都建立在“注意力機制”之上，GPT的全稱是Generative Pre-trained Transformer，而這個transformer就是一個由注意力機制構建的深度學習模型。其來源于2017年的一篇15頁的論文，《Attention is all you need》[1]。再結合OpenAI對于GPT2和GPT3的兩篇論文[2][3]，我們可以拆開這個大語言模型，看看他在說話的時候究竟發(fā)生了什么。

注意力機制的誕生來源于人腦的思維方式，例如在讀這段話時，你的注意力會不斷的從左往右一個字一個字的閃過，之后再把注意力放到完整的句子上，理解這些字詞的關系，其中有些關鍵詞還會投入更多的注意，這一切發(fā)生在電光火石之間。

而基于注意力機制的Transformer和GPT系列模型就是在模擬這一思維過程，通過讓機器理解一句話中字詞之間的關系和意義，完成下一個詞的續(xù)寫，然后再理解一遍，再續(xù)寫一個詞，最后寫成一段話。要讓程序模仿這件事并不容易。如何讓機器計算字符，如何讓代碼存儲知識，為什么將以上模型框架中的一個單元拆開后，全都是圓圈和線？

所以研究AI的第一步，是搞清楚上圖中的一個圓圈究竟能夠干什么。

【神經(jīng)元--圓圈和線】

1957年的一篇論文，《感知器：大腦中信息存儲和組織的概率模型》[4]中也出現(xiàn)了一堆圓圈和線，這就是今天各種AI模型的基本單元，我們也叫它神經(jīng)網(wǎng)絡。一個世紀前，科學家就已經(jīng)知道了人腦大概的運作方式，這些圓圈模擬的是神經(jīng)元，而線就是把神經(jīng)元連接起來的突觸，傳遞神經(jīng)元之間的信號。

將三個神經(jīng)元連接在一起，就得到了一個開關，要么被激活輸出1，要么不被激活輸出0。開關可以表達是否，區(qū)分黑白，標記同類，但是歸根到底都是一件事情，分類。過去幾十年，無數(shù)個人類最聰明的頭腦所做的，就是通過各種方式把這些圓圈連接起來，試圖產(chǎn)生智能。

這個網(wǎng)站可以模擬更多的神經(jīng)元分裂問題?？梢钥吹揭粋€神經(jīng)元能處理的情況還是太有限了，能分開明顯是兩塊的數(shù)據(jù)，而內(nèi)圈外圈的數(shù)據(jù)就分不開。但如果加入激活函數(shù)，再增加新的神經(jīng)元，每一個新增的神經(jīng)元都可以在邊界上新增一兩條折線，更多的折線就可以圍得越來越像一個圓，最終完成這個分類。

分類可以解決很多具體問題，假如上圖中的每個點的X軸和Y軸分別代表一只小狗的歲數(shù)和體重，那么只憑這兩種數(shù)值就可以分出來這是兩個不同品種的狗，每個點代表的信息越多，能解決的問題也就越復雜。比如一張784個像素的照片，就可以用784個數(shù)字來表示分類，這些點就能分類圖片。更多的線，更多的圓圈，本質(zhì)上都是為了更好的分類。這就是今天最主流的AI訓練方案，基于神經(jīng)網(wǎng)絡的深度學習。

學會了分類，某種程度上也就實現(xiàn)了創(chuàng)造。

這就是為什么有這么多業(yè)界學者意識到了深度學習的本質(zhì)，其實是統(tǒng)計學，沿著圓圈和線的道路，他們終究會到達終點，成為人人都可以使用的工具。而如果拆開GPT系列模型，暴露出來的也仍然只是這些圓圈和線。但分類和統(tǒng)計真的能模仿人的思維嗎？在論述之前，先了解一下成語接龍的底層原理。

【成語接龍】

在2018年第一代GPT的原始論文[5]中，我們可以看到GPT系列的模型結構?；叵肷衔闹刑岬降淖⒁饬C制，這一層被叫做注意力編碼層，它的目標就是模仿人的注意力，抽取出話語之間的意義，把12個這樣的編碼層疊在一起，文字從下面進去，出來的就是GPT預測的下一個詞。

比如輸入how are you之后，模型會輸出下一個單詞doing，為什么它會輸出doing？接下來我們就得搞明白中間到底發(fā)生了什么。

輸入how are you后，這三個單詞會被轉換為3個1024維度的向量，接著每個向量都會加上一個位置信息，表示how是第一個詞，are是第二個詞，以此類推之后它們會進入第一個注意力編碼層，計算后變成三個不一樣的1024長的向量，再來到第二層、第三層，一直經(jīng)過全部的24個注意力編碼層的計算處理，仍然得到三個1024長的向量，對下一個詞的續(xù)寫結果就藏在最后一個向量里面。關鍵的計算就發(fā)生在這些注意力編碼層，這一層里又可以分成兩個結構，先算多頭注意力，再算全連接層。注意力層的任務是提取話語間的意義，而全鏈接層需要對這些意義做出響應，輸出存儲好的知識。

我們可以先用how做個例子，注意力層里有三個訓練好的核心參數(shù)KQV，用于計算詞語間的關聯(lián)度，將它們與每個向量相乘后，就能得到how和are的關聯(lián)度，再通過這種方式計算how和you， how和how的關聯(lián)度，就能得到三個打分，分數(shù)越高意味著它們的關聯(lián)越重要。之后再讓三個分數(shù)和三個有效信息相乘再相加，就把how變成了一個新的64個格子的向量，然后對are和you做同樣的操作，就得到了三個新的向量。

參與這輪計算的KQV是固定的，而模型里一共有16組不同的KQV，他們分別都會做一輪剛才這樣的運算，得到16組不同的輸出，這叫做多頭注意力，意味著對這句話的16組不同的理解。把它們拼在一起，就得到了和輸入相同長度的1024個格子，再乘一個權重矩陣W就進入到了全鏈接層的計算。

在全連接層里，就是4096個我們熟悉的神經(jīng)元，它們都還是在做分類的工作。這里的計算是把被注意力層轉換后的how向量和這里的每一個神經(jīng)元都連接在一起，1024個格子里的每一個數(shù)字都分別和第一個神經(jīng)元的連線的權重相乘再相加，這個神經(jīng)元會輸出一個相似度分值，與此同時，每一個神經(jīng)元都在做類似的操作。只有少數(shù)神經(jīng)元的輸出大于零，也就意味著神經(jīng)元對這個敏感，再連接1024個格子號所對應的向量，就又得到了一個新的向量。之后are和you做類似的計算，就得到了三個和初始長度一樣的1024長的格子串，這就是一層注意力編碼層內(nèi)發(fā)生的事情。之后的每一層都按照相同的流程在上一層的基礎上做進一步的計算，即便每一層都只帶來了一點點理解，24層算完以后也是很多理解了，最終還是得到三個向量，每個1024長。而模型要輸出的下一個詞就基于這最后一個向量，也就是you變換來的向量，把它從1024恢復成0-50256范圍的序號，我們就能看到這個序號向量在詞表里最接近的值。到這一步就可以說模型算出了how are you之后的下一個詞，最有可能是doing。

我們希望模型繼續(xù)續(xù)寫，就把這個doing續(xù)在how are you后面，轉換成四個向量，再輸入進模型，重復剛才的流程，再得到下一個詞。這樣一個接一個，一段話越來越長，直到結束，變成我們看到的一段話，這就是文字接龍的秘密。而ChatGPT也只是把這個續(xù)寫模型改成了對話界面而已，你提的每一個問題都會像這樣成為續(xù)寫的起點，你們共同完成了一場文字接龍。

【 “大”語言模型】

剛剛提到的每一層的計算流程長，其實還好，GPT真正嚇人的地方是參數(shù)量大。GPT1的基本尺寸是768，每一層有超過700萬個參數(shù)，12層就是1.15億個參數(shù)，在他發(fā)布的2018年已經(jīng)非常大了。我們剛剛拆開的GPT medium基本尺寸是10241，共有24層，每一層有1200萬參數(shù)，乘起來就是3.5億參數(shù)。而到了ChatGPT用的GPT3的版本，它的參數(shù)量是1750億，層數(shù)增加到了96層。GPT4并沒有公布它的大小，有媒體猜測它是GPT3的六倍，也就是一萬億參數(shù)。這意味著，即便把一張3090顯卡的顯存變大幾百倍，讓他能裝的下級GPT4，回答一個簡單問題可能仍然需要計算40分鐘。

拆開這一切，就會發(fā)現(xiàn)沒有什么驚人的秘密，只有大，文明奇觀的那種大，無話可說的那種大，這就是GPT系列的真相，一個“大”語言模型。但是我們還是無法回答為什么這樣的模型能夠產(chǎn)生智能，以及現(xiàn)在還出現(xiàn)了一個新的問題，為什么參數(shù)量非得這么大？

讓我們先總結一下目前的已知信息，第一，神經(jīng)網(wǎng)絡只會做一件事情，數(shù)據(jù)分類，第二，GPT模型里注意力層負責提取話語中的意義，再通過全鏈接層的神經(jīng)元輸出存儲好的知識，第三，GPT說的每一個詞都是把對話中的所有詞在模型中跑一遍，選擇輸出概率最高的詞。所以，GPT擁有的知識是從哪來的？我們可以在OpenAI的論文中看到ChatGPT的預訓練數(shù)據(jù)集，他們是來自網(wǎng)站、圖書、開源代碼和維基百科的大約700GB的純文本，一共是4991個token，相當于86萬本西游記。而它的訓練過程就是通過自動調(diào)整模型里的每一個參數(shù)，完成了這些海量文字的續(xù)寫。

在這個過程中，知識就被存儲在了這一個一個的神經(jīng)元參數(shù)里，之后它的上千億個參數(shù)和存儲的知識就不再更新了。所以我們使用到的ChatGPT其實是完全靜止的，就像一具精致的尸體，它之所以看起來能記住我們剛剛說的話，是因為每輸出一個新的詞，都要把前面的所有詞拿出來再算一遍，所以即便是寫在最開頭的東西，也能夠影響幾百個單詞之后的續(xù)寫結果。但這也導致了ChatGPT每輪對話的總詞匯量是有上限的，所以GPT不得不限制對話程度。就像是一條只有七秒記憶的天才金魚。

現(xiàn)在回到前言中提到的問題，為什么ChatGPT可以回答他沒有學習過的互聯(lián)網(wǎng)不存在的問題，例如一個訓練數(shù)據(jù)里不可能存在的六位數(shù)加法，這顯然無法通過統(tǒng)計學的方式來預測下一個最高概率的數(shù)字是多少，這些統(tǒng)計之外的新能力是如何出現(xiàn)的？

今年5月，OpenAI的新研究給了我啟發(fā)，這篇論文名為《語言模型，可以解釋語言模型中的神經(jīng)元》[6]。簡單來說就是用GPT4來解釋GPT2。給GPT2輸入文本時，模型里的一部分神經(jīng)元會激活，Open AI讓GPT4觀察這個過程，猜測這個神經(jīng)元的功能，再觀察更多的文本和神經(jīng)元，猜測更多的神經(jīng)元，這樣就可以解釋GPT2里面每一個神經(jīng)元的功能，但是還不知道GPT4猜的準不準。驗證方法是讓GPT4根據(jù)這些猜想建立一個仿真模型，模仿GPT2看到文本之后的反應，再和真的GPT2的結果做對比，結果一致率越高，對這個神經(jīng)元功能的猜測就越準確。OpenAI在這個網(wǎng)站里記錄了他們對于每一個神經(jīng)員的分析結果。

比如我們輸入30, 28，就可以看到第30層的第28個神經(jīng)元的情況。GPT4認為這個神經(jīng)元關注的是具體時間。下面是各種測試例句，綠色就表示神經(jīng)元對這個詞有反應，綠色越深，反應就越大?？梢园l(fā)現(xiàn)，即便拼寫完全不同，但這些模型中間層的神經(jīng)元也已經(jīng)可以根據(jù)詞語和上下文來理解它們的意義了。

但OpenAI也發(fā)現(xiàn)，只有那些層數(shù)較低的神經(jīng)元才是容易理解的。這個柱狀圖里的橫坐標是對神經(jīng)元解釋的準確程度，縱坐標是神經(jīng)元的數(shù)量?？梢钥吹剑瑢τ谇皫讓拥纳窠?jīng)元，差不多一半都能做到0.4以上的準確度。但是層數(shù)越高，得分低的神經(jīng)元就越來越多了，大多數(shù)神經(jīng)元還是處在一片迷霧之中。

因為對于語言的理解本來就是難以解釋的，比如這樣一段對話。對于中文母語的我們來說，很快就能理解這段話的意思，但是對于一個神經(jīng)網(wǎng)絡，只靠幾個對“意思”有反應的神經(jīng)元顯然是不夠意思。

A：“你這是什么意思？”

B：“沒什么意思，意思意思?！?/p>

A：“你這人真有意思。”

B：“其實也沒有別的意思。”

A：“那我就不好意思了?！?/p>

B：“是我不好意思?！?/p>

而GPT似乎理解了這些意思，它是如何做到的？

【 Emergence--涌現(xiàn) 】

“將萬事萬物還原為簡單基本定律的能力，并不蘊含從這些定律出發(fā)，重建整個宇宙的能力?！?—— Philip Anderson.

1972年，理論物理學家Philip Anderson在Science發(fā)表了一篇名為《More is Different》[7]的論文，奠定了復雜科學的基礎，安德森認為：“大量基本粒子的復雜聚集體的行為并不能依據(jù)少數(shù)粒子的性質(zhì)作簡單外推就能得到理解。取而代之的是在每一復雜性的發(fā)展層次之中呈現(xiàn)了全新的性質(zhì)，從而我認為要理解這些新行為所需要作的研究，就其基礎性而言，與其它相比也毫不遜色”。

回顧語言模型的結構，信息是隨著注意力編碼層不斷往上流動的，層數(shù)越高的神經(jīng)元越有能力關注那些復雜抽象的概念和難以言說的隱喻。這篇叫《在干草堆里找神經(jīng)元》[8]的論文也發(fā)現(xiàn)了類似的情況，他們找到了一個專門用來判斷語言是否為法語的神經(jīng)元。如果在小模型當中屏蔽這個神經(jīng)元，他對法語的理解能力馬上會下降，而如果在一個大模型中屏蔽它，可能幾乎沒什么影響。這意味著在模型變大的過程中，一個單一功能的神經(jīng)元很可能會分裂出多個適應不同情況的神經(jīng)元，它們不再那么直白的判斷單一問題，進而變得更難。

能理解這就是OpenAI為什么非得把模型搞得這么大的原因，只有足夠大才足夠抽象，而大到了一定程度，模型甚至會開始出現(xiàn)從未出現(xiàn)過的全新能力。

在這篇名為《大語言模型的涌現(xiàn)能力》的論文中[9]，研究人員對于這些大小不同的語言模型完成了八項新能力的測試?？梢钥吹剑麄冊谧兇笾耙恢倍疾惶?，而一旦大到某個臨界點，它突然就行了，開始變成一條上竄的直線，就像是在一瞬間頓悟了一樣。

縱觀我們的自然和宇宙，一個復雜系統(tǒng)的誕生往往不是線性成長，而是在復雜度積累到某個閾值之后，突然的產(chǎn)生一種新的特質(zhì)，一種此前從未有特的全新狀態(tài)，這種現(xiàn)象被稱作涌現(xiàn)，Emerge。而這個上千億參數(shù)的大語言模型，好像真的涌現(xiàn)出了一些數(shù)據(jù)分類之上的新東西。

最近讀了《失控》這本書，里面也提到了一個概念叫涌現(xiàn)，可以理解為蜂群智慧。一只蜜蜂是很笨的，但是組成一個群體就可以完成很多超越個體智慧的決策。當然我不覺得AI的單個神經(jīng)元是愚笨的，而是會不會這種“意識”，也會因為大量功能迭代，學習，突然涌現(xiàn)出來，就像人類的進化，不知怎么的就有了意識。就像這個世界的一切都是由原子構成，但如果只是計算原子之間的相互作用力，我們永遠也無法理解化學，也無法理解生命。所以，如果僅僅從還原論的角度把AI看作只做二元分裂的圓圈和線，我們就永遠無法理解大語言模型今天涌現(xiàn)出的抽象邏輯和推理能力，為此，我們需要在一個新的層級重新理解這件事。

三、中文房間

1980年，美國哲學教授John Searle在這篇名為《心智大腦和程序》[10]的論文中提出了一個著名的思想實驗，中文房間。把一個只懂英文的人關在一個封閉的房間里，只能通過傳遞紙條的方式和外界對話。房間里有一本英文寫的中文對話手冊，每一句中文都能找到對應的回復。這樣房間內(nèi)的人就可以通過手冊順暢的和外界進行中文對話，看起來就像是會中文一樣，但實際上他既不理解外面提出的問題，也不理解他所返回的答案。

他試圖通過中文房間證明，不管一個程序有多聰明或者多像人，他都不可能讓計算機擁有思想、理解和意識。真的是這樣嗎？在這個名為互聯(lián)網(wǎng)哲學百科全書的網(wǎng)站中，可以看到圍繞中文房間的各種爭論，他們都沒能互相說服。

這些討論都停留在思想層面，因為如果只靠一本打印出來的手冊，中文房間是不可能實現(xiàn)的。中文對話有著無窮無盡的可能，即便是同樣一句話，上下文不同，回答也不同。這意味著手冊需要記錄無限多的情況，要不然總有無法回答的時候。但詭異的是，ChatGPT真的實現(xiàn)了。作為一個只有330GB的程序，ChatGPT在有限的容量下實現(xiàn)了幾乎無限的中文對話，這意味著他完成了對中文的無損壓縮。

想象有一個這樣的復讀機，空間只有100MB，只能放十首歌。要聽新的歌，就得刪掉舊的歌。但現(xiàn)在我們發(fā)現(xiàn)了一個神奇復讀機?，F(xiàn)在只需要唱第一句，這個復讀機就可以通過續(xù)寫波形的方式把任何歌曲播放出來。我們應該怎么理解這個復讀機？我們只能認為他學會了唱歌。

四、Compression--壓縮即智慧

回想GPT的學習過程，它所做的，就是通過它的1750億個參數(shù)，實現(xiàn)了它所學習的這4990億個token的壓縮。到這一步，逐漸意識到，是壓縮產(chǎn)生了智能。

Jack Ray, OpenAI大語言模型團隊的核心成員，在視頻講座中提到，壓縮一直是我們的目標。

接下來是我對于壓縮及智能這件事的理解，假設我要給你發(fā)送這句話，“壓縮即智慧”。

我們可以把GPT當做一種壓縮工具，我用它壓縮這句話，你收到后再用GPT解壓，我們得先知道這句話的信息量有多大。在GBK這樣的編碼里，一個漢字需要兩個字節(jié)，也就是16個0/1來表述，這可以表示2的16次方，也就是65536種可能。這句話一共5個字符，就需要一共80個0和1，也就是80比特。但實際上這句話的信息量是可以小于80比特的。它的真實信息量其實可以用一個公式計算。

這是1948年香農(nóng)給出的信息熵的定義，它告訴我們信息的本質(zhì)是一種概率密度。我們可以把這里的P簡單理解為每個字出現(xiàn)的概率，它們出現(xiàn)的概率越低，整句話的信息量就越大。如果這句話里的每個字都是毫無規(guī)律的隨機出現(xiàn)，那么P的概率就是1/65536，計算后的信息量就是原始的80比特。常見的傳統(tǒng)壓縮方法是找到重復的字，但幾乎不重復的句子就很難壓縮。更重要的是，正常的語言是有規(guī)律的，“壓”后面跟著“縮”的概率遠大于1/65536，這就給了信息進一步壓縮的空間。而語言模型所做的就是在壓縮的過程中找到語言的規(guī)律，提高每個字出現(xiàn)的概率。比如我們只發(fā)送“壓縮”，讓語言模型開始續(xù)寫，預測的概率表里就會出現(xiàn)接下來的詞，我們只需要選擇“即”和“智慧”所在的位置，例如（402，350）。那這兩這個數(shù)字就實現(xiàn)了信息的壓縮，接收方基于這些信息，從相同語言模型的概率去處理，選出數(shù)字對應的選項，就完成了解壓。2個最大不超過5000的數(shù)字，每個數(shù)字只要13位0/1就能表示，加上前2個字，一共也只需要發(fā)送52位0/1，信息壓縮到原來的52/80大約65%。

相反，如果語言模型的預測效果很差，后續(xù)文字的詞表還是會很長，無法實現(xiàn)很好的壓縮效果。所以可以發(fā)現(xiàn)，壓縮效果越好意味著預測效果越好，也就反映了模型對于被壓縮信息的理解，而這種理解本身就是一種智能。為了把九九乘法表壓縮的足夠小，他需要理解數(shù)學，而如果把行星坐標壓縮的足夠小，他可能就理解了萬有引力。今天，大語言模型已經(jīng)成為了無損壓縮的最佳方案，可以實現(xiàn)14倍的壓縮率。壓縮這一視角最大的意義在于，相比于神秘莫測的涌現(xiàn)，它給了我們一個清晰明確、可以量化機器智能的方案。即便面對中文房間這樣的思想實驗，我們也有辦法研究這個房間的智能程度。

但是，通過壓縮產(chǎn)生的智慧和人的心智真的是同一種東西嗎？

五、寫在最后

如果要問，現(xiàn)階段GPT和人類說話方式最大的不同是什么，我認為，答案是他不會說謊。對于語言模型來說，說和想是一件事情，他只是一個字一個字的把他的思考過程和心理活動說出來了而已。GPT從不回答我不知道，因為他并不知道自己不知道，這就是AI的幻覺，看起來就像是一本正經(jīng)的胡說八道，他只是想讓對話繼續(xù)下去，是否正確反而沒那么重要。優(yōu)化這個問題的方法也很簡單，只需要在提問的時候多補充一句，Let's think step by step，請逐步分析，讓GPT像人一樣多想幾步，對他來說也就是把想的過程說出來。Step by step，這種能力也被稱為Chain of Thought，思維鏈。心理學家Daniel Kahneman把人的思維劃分成了兩種，系統(tǒng)一是直覺、快速的、沒有感覺的，系統(tǒng)二則需要主動的運用知識、邏輯和腦力來思考。前者是快思考，就像我們可以脫口而出八九七十二，九九八十一，而后者是慢思考。就比如要回答72乘81是多少，就必須列出過程，一步步計算。思維鏈的存在意味著大語言模型終于有了推理能力。而為了做到這件事，我們的大腦進化了6億年。我們可以在6億年前的水母身上看到神經(jīng)網(wǎng)絡最古老的運行方式。水母外圍的觸角區(qū)域和中心的嘴部區(qū)域都有神經(jīng)元。當觸角感知到食物時，這里的神經(jīng)元會激活，然后把信號傳給中心的神經(jīng)元，食物也會被這個觸角卷起來送到嘴里。漫長的歲月里，我們的大腦就在神經(jīng)網(wǎng)絡的基礎上一層又一層的疊加生長出來。

首先進化出來的是爬蟲類腦，這部分和青蛙的腦子有點像，它控制著我們的心跳、血壓、體溫這些讓我們不會死的東西。然后是古生物腦，它支配著我們的動物本能，饑餓、恐懼和憤怒的情緒，繁衍后代的欲望都來自邊緣系統(tǒng)的控制。而最外側這兩毫米左右的薄薄的一層，是最近幾百萬年才進化出來的新結構、新皮質(zhì)，我們?nèi)祟愐詾榘恋哪切┎糠?，語言、文字、視覺、聽力、運動和思考都發(fā)生在這里，但我們對新皮質(zhì)還是知之甚少。目前已知的是，這里有大概200億個神經(jīng)元，每一平方厘米的新皮質(zhì)中都大約有一千萬個神經(jīng)元和500億個神經(jīng)元之間的連接。只需要從人類大腦外側取下一小片三平方厘米的新皮質(zhì)，就已經(jīng)和ChatGPT大的嚇人的參數(shù)量類似了。而我們的大腦之所以需要這么多神經(jīng)元，是因為GPT僅僅需要預測下一個詞，而我們的神經(jīng)元需要時刻預測這個世界下一秒會發(fā)生什么。

最近幾十年的神經(jīng)科學研究發(fā)現(xiàn)除了能激活神經(jīng)元的突觸信號，還存在大量負責預測的樹突脈沖信號。一個處于預測狀態(tài)的神經(jīng)元如果得到足夠強的突出信號，就可以比沒有預測狀態(tài)的神經(jīng)元更早的被激活，進而抑制其他的神經(jīng)元。這意味著有一個事無巨細的世界模型就存儲在我們新皮質(zhì)的200億個神經(jīng)元里，而我們的大腦永遠不會停止預測。所以，當我們看到一個東西，其實看到的是大腦提前構建的模型，如果它符合我們的預測，無事發(fā)生。而一旦預測錯誤，大量的其他神經(jīng)元就會被激活，讓我們注意到這個錯誤，并及時更新模型。所以每一次錯誤都有它的價值。我們也正是在無數(shù)次的預測錯誤和更新認知中真正認識了世界。

現(xiàn)在我可以試著回答最初的問題，GPT或許尚未涌現(xiàn)心智，但他已經(jīng)擁有了智能。它是一個“大”的語言模型，是幾百萬個圓圈和線互相連接的分類器，是通過預測下一個詞實現(xiàn)文字接龍的聊天大師，是不斷向上抽取意義的天才金魚，是對幾千億文字無損壓縮的復讀機，是不論對錯永遠積極回應人的助手。它可能又是一場快速退潮的科技熱點，也可能是人類的最后一項重要的發(fā)明。從圍棋、繪畫、音樂到數(shù)學、語言、代碼，當AI開始在那些象征人類智力和創(chuàng)造力的事情上逐漸超越的時候，給人類最大的沖擊不僅僅是工作被替代的恐懼，而是一種更深層的自我懷疑。人類的心智是不是要比我們想象的淺薄的多，我不這么認為。

機器可以是一個精妙準確的復讀機，而人類是一個會出錯的復讀機。缺陷和錯誤定義了我們是誰。每一次不合規(guī)矩，每一次難以理解，每一次沉默、停頓和凝視，都比不假思索的回答更有價值。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴