亚洲欧洲美洲在线观看免,xiaav论坛这里因你而精彩

今年三月，OpenAI 重磅發(fā)布了 GPT-4 大模型，帶來了比 ChatGPT 背后 GPT-3.5 更強(qiáng)的推理、計算、邏輯能力，也引發(fā)了全民使用的熱潮。在各行各領(lǐng)域研究人員、開發(fā)者、設(shè)計師的使用過程中，「GPT-4 是最為領(lǐng)先的大模型」似乎已成為了公認(rèn)的結(jié)果。

然而，8 月 7 日，畢業(yè)于美國麻省理工學(xué)院、現(xiàn)任 Dyania Health CTO的Konstantine Arkoudas 最新撰寫了一篇標(biāo)題為《GPT-4 Can't Reason》（GPT-4 不能推理）的預(yù)印本（指尚未在需要同行評審的科學(xué)期刊上出版的科學(xué)文獻(xiàn)的草稿）論文，在業(yè)界引起軒然大波。

該論文指出，GPT-4 與 GPT 3.5 相比有了全面的實質(zhì)性改進(jìn)。然而，盡管確實取得了令人印象深刻的改進(jìn)，但其有充分的理由對 GPT-4 的推理能力表示高度懷疑。這篇論文討論了推理的本質(zhì)，批評當(dāng)前 NLP 界對推理問題的表述以及目前評估 LLM 推理表現(xiàn)的方式，同時分享了基于 GPT-4 給出的 21 個不同推理問題的集合。

最終得出結(jié)論：盡管GPT-4偶爾會閃現(xiàn)出分析的才華，但它目前是完全無法推理的。

一語掀起千層浪，難道此前 GPT-4 在短短幾分鐘之內(nèi)生成一款游戲代碼，難道都不算是推理嗎？

什么是推理？

其實在今年一月初，論文作者 Konstantine Arkoudas 就在 Medium 平臺上分享了一篇有關(guān) ChatGPT 的非正式評估，評估涉及的學(xué)科非常廣泛，包括傳統(tǒng) NLU、民間物理、信息檢索、心理理論、空間推理、簡單邏輯推理和數(shù)學(xué)。

當(dāng)時其得到的主要結(jié)論是：ChatGPT 是一項開創(chuàng)性的突破；基于 LLM 的系統(tǒng)并不只是“隨機(jī)鸚鵡”，而是建立了真正的抽象，并能展現(xiàn)創(chuàng)造力；這類系統(tǒng)將帶來大量令人興奮的新應(yīng)用；盡管取得了上述的成就，但這些系統(tǒng)在推理能力上仍然受到嚴(yán)重限制。

在他看來，如今升級版的 GPT-4 依然如此，甚至完全沒有推理能力。

在論文中，Konstantine Arkoudas 指出，業(yè)界關(guān)于“LLM 是否有推理能力”的爭論已經(jīng)持續(xù)了很長時間。

一方面，是 LLM 支持派。他們對大模型美好推理能力預(yù)測往往會依賴不斷變化的“定律”，而這些所謂的“定律”，Konstantine Arkoudas 認(rèn)為，實際上就是站不住腳的經(jīng)驗證據(jù)、大量有問題的建模假設(shè)、理解不清的概念（LLM 特性），以及甚至包含一點(diǎn)教條信念，即在龐大的語料庫中最大限度地減少下一個標(biāo)記預(yù)測的交叉熵?fù)p失，就能通過遷移學(xué)習(xí)的魔力和通用高級表征的構(gòu)建，提供一個通用的推理引擎。

另一方面，則是 LLM 懷疑派。他們往往有著嚴(yán)謹(jǐn)?shù)恼摀?jù)，但是這些論點(diǎn)大多是基于過往經(jīng)驗和分析，有些含糊不清(例如，LLM 缺乏“世界模型”，即關(guān)于世界如何運(yùn)作的內(nèi)部模型)。

基于這兩方面考慮，Konstantine Arkoudas 認(rèn)為，對于可靠的魯棒 LLM 推理的合理性，最令人信服的先驗（過往經(jīng)驗和分析）考慮是計算復(fù)雜性的結(jié)果。推理是一個非常難以計算的問題。事實上，在一般情況下(一階或高階邏輯)，它在算法上是不可判定的。

Konstantine Arkoudas 表示，「任何 LLM，無論規(guī)模有多大，經(jīng)過多么廣泛和巧都無法破解任意推理問題。這與機(jī)器學(xué)習(xí)中著名的 "沒有免費(fèi)的午餐"定理是一致的，后者指出了模型通用性與性能之間類似的反比關(guān)系」。

因此，為了驗證“GPT-4 是否具有推理能力”，首先要做的是統(tǒng)一理念，即什么是推理，以及判定推理能力所采用的具體方法。

對于推理的定義，Konstantine Arkoudas 表示，「推理不是不擇手段地得出正確的答案，而是根據(jù)正確的理由得出正確的答案?！?/p>

更準(zhǔn)確地說，推理是提出論點(diǎn)，更重要的是證明論點(diǎn)的過程。一個論證包括一個結(jié)論（可以說是論證的結(jié)果）和一系列前提，結(jié)論就是由這些前提推導(dǎo)出來的。前提代表了為論證目的而被視為既定的信息，即使只是暫時的。結(jié)論和前提通常是陳述句，用自然語言或符號邏輯的符號來表達(dá)，可真可假，但也可以用圖表等其他符號來表示。如果 S 中的所有句子都為真，則 p 為真，在這種情況下，這個論點(diǎn)被認(rèn)為是有效的。

對于方法論，Konstantine Arkoudas 在論文中所采用的評估不是基于一個語料庫或一組語料庫。相反，其對 GPT-4 在廣泛領(lǐng)域的 21 個簡單推理問題上的性能進(jìn)行了詳細(xì)的定性分析，其中大部分是從頭開始編寫的，而其余的（例如 Wason 的選擇任務(wù)）則經(jīng)過手動調(diào)整，使模型不易識別它們，這樣做的部分原因也是為了避免數(shù)據(jù)污染。

用測試問題驗證 GPT-4 的推理性

基于此，Konstantine Arkoudas 從多個維度對 GPT-4 提出問題，并根據(jù)其輸出進(jìn)行了詳盡的分析。

值得一提的是，由于 GPT-4 的屬性，有時候即使用相同的“Prompt”，在不同的運(yùn)行中也可能會得到不同的答案。

接下來，驗證開始（以下所有測試時間多出自2023 年 7 月 5 日測試結(jié)果）。

簡單算術(shù)

Konstantine Arkoudas 表示，執(zhí)行基本算術(shù)運(yùn)算的能力是通用推理的必要組成部分，尤其是在科學(xué)和工程應(yīng)用領(lǐng)域。為了確保 GPT-4 不會死記硬背，他提出了讓 GPT-4 在其選擇的范圍內(nèi)隨機(jī)選擇兩個隨機(jī)整數(shù)，然后對選擇的值執(zhí)行操作。

KA 給出的 Prompt 是：

在 1381 和 1453 之間選擇兩個隨機(jī)數(shù)，然后將它們相乘，并報告結(jié)果。

GPT-4 的回答是：

當(dāng)然，讓我們在 1381 到 1453 的范圍內(nèi)選取兩個隨機(jī)數(shù)。假設(shè)這個數(shù)字是 1405 和 1421。

要得到乘積，我們只需將這兩個數(shù)字相乘:1405*1421 = 1996025

但實際上，正確答案是 1405*1421=1996505。

事實證明，GPT-4 仍然無法可靠地執(zhí)行基本算術(shù)運(yùn)算，如加法和乘法。

Konstantine Arkoudas 表示，也許LLM 的支持者此時可能會承認(rèn) GPT-4 不是一個圖靈完備的框架，不能執(zhí)行通用計算：它不能進(jìn)行加、乘法或除法運(yùn)算，不能對列表進(jìn)行排序、不能求逆矩陣或解微分方程組、不能將任意程序編譯成機(jī)器碼、不能推導(dǎo)定理等等。

不過，這些計算能力的缺失可以通過第三方插件來彌補(bǔ)，如 ReAct、MRKL 框架。正是這種工作方式催生了 LangChain 和 AutoGPT 這樣的系統(tǒng)。這里的想法是使用 LLM 作為規(guī)劃器，將復(fù)雜問題遞歸分解為一系列子問題，通過適當(dāng)?shù)?API 將這些子問題分派給專門的代理。

然而，Konstantine Arkoudas 認(rèn)為，這種方法的問題在于它的循環(huán)性。規(guī)劃本身就需要推理，所以這是一個 "兩難選擇"，即我們無法通過將問題委托給合適的代理來解決推理問題，因為找出委托的方法（如何分解問題、調(diào)用哪些代理、如何調(diào)用以及如何分解結(jié)果）本身在計算上就不可行。這不僅需要理解自然語言的能力，還需要推理先決條件和效果的能力。即使在這些過于簡單化的假設(shè)下，規(guī)劃的計算成本也非常高昂（PSPACE-complele），需要進(jìn)行徹底的簡化才能將復(fù)雜度降低到 NP-complele 的水平。在更現(xiàn)實的假設(shè)條件下，規(guī)劃是在不完全的知識條件下進(jìn)行的，在機(jī)制上是不可判定的。正如我們今天所理解的那樣，期望通用 LLMs 能夠成功解決規(guī)劃問題是天真的想法。

簡單計數(shù)

給 GPT-4 一個命題變量，在它前面有 27 個否定符號，并要求它計算否定的數(shù)量。對于人類來說，這是個很容易的任務(wù)，尤其是因為否定符號是分五塊寫的，每塊有五個小點(diǎn)，最后是一對否定符號，但是 GPT-4 的表現(xiàn)如何呢？

KA：

在下面的公式中，p 被否定了多少次：

~~~~~ ~~~~~ ~~~~~ ~~~~~ ~~~~~ ~~ p

GPT-4 的回答是：

GPT-4：你給出的公式在命題變量 "p "前面包含了 28 個否定符號（"～"）。在邏輯學(xué)中，否定符號將語句的真值改變?yōu)樗南喾粗怠Ｈ绻粋€語句為真，那么它的否定就是假的，反之亦然。雙重否定，如"～～ p"，等價于 "p"，因為對一個命題否定兩次，它就恢復(fù)到原來的真值。

如果有余數(shù)，那么就有一個否定。如果沒有，那么就沒有否定。

28 除以 2 是 14，沒有余數(shù)，也就是說沒有否定。因此，實際上在給定的公式中，變量 "p "并沒有被否定。它只相當(dāng)于 "p"。

Konstantine Arkoudas 發(fā)現(xiàn)，GPT-4 多數(shù)了一個否定符號帶來的差別似乎并不嚴(yán)重，直到我們意識到它在邏輯輸入上的所有差別，正如 GPT-4 自己（不請自來）的解釋所強(qiáng)調(diào)的那樣。即使在明確告訴 GPT-4 要慢慢來、仔細(xì)數(shù)的情況下，多次重復(fù)這個實驗也得到了大相徑庭的結(jié)果。

常識性問題

緊接著 Konstantine Arkoudas 又提出：“Mable 上午 9 點(diǎn)的心率是 75bom，下午 7 點(diǎn)的血壓是 120/80。她于晚上 11 點(diǎn)死亡。她中午還活著嗎？”

GPT-4：

根據(jù)所提供的信息，我們無法確定 Mable 中午是否還活著。所提供的數(shù)據(jù)點(diǎn)（上午 9 點(diǎn)的心率和下午 7 點(diǎn)的血壓）都表明她當(dāng)時還活著。但是，如果沒有更多關(guān)于她下午 7 點(diǎn)到 11 點(diǎn)之間或者具體到中午的情況信息，我們就無法確定她中午時的狀況。

請記住，醫(yī)療信息可能是復(fù)雜而微妙的。要了解一個人的健康狀況，通常需要進(jìn)行全面的檢查，并應(yīng)由專業(yè)醫(yī)護(hù)人員進(jìn)行。如果這是一個假設(shè)性問題，請記住現(xiàn)實生活中需要更完整的信息。

在目前的情況下，其實可以將常識論證視為從給定信息加上未說明的前提得出的直接推導(dǎo)結(jié)論，這些前提構(gòu)成了普遍接受的背景知識。在這種特殊情況下，這種常識性知識就是 "人在死前是活著的，死后就不會再活著 "這樣的命題。在論文中，Konstantine Arkoudas 認(rèn)為，GPT-4 給出"這是一個復(fù)雜的問題，請務(wù)必向?qū)I(yè)人士咨詢 "的說法似乎具有諷刺意味。

Wason 選擇問題

Wason 選擇任務(wù)是推理心理學(xué)的主要內(nèi)容。

KA：

桌上放著七張撲克牌，每張撲克牌的一面都有一個數(shù)字，另一面有一個單色的圖案。牌面分別顯示 50、16、紅、黃、23、綠、30。如果一張牌上顯示的是 4 的倍數(shù)，那么反面的顏色就是黃色，你需要翻哪張牌來檢驗這個命題的真?zhèn)危?/p>

GPT-4：

命題是："如果一張牌上的數(shù)字是 4 的倍數(shù)，那么另一面的顏色是黃色"。為了驗證這個命題，你必須翻開下面的牌：

撲克牌"16"：根據(jù)命題，另一面的顏色應(yīng)該是黃色。通過翻開這張牌，你可以檢查命題的這一部分是否成立。

撲克牌"黃色"：翻開這張牌，你就可以檢查對面的數(shù)字是否是 4 的倍數(shù)。

撲克牌"50"和"30"：雖然這兩張卡片上的數(shù)字不是 4 的倍數(shù)，但還是要檢查一下，以確保另一面的顏色不是黃色。如果另一面是黃色，那么就推翻了“只有 4 的倍數(shù)的另一面是黃色”的命題。

你不需要翻開卡片"23"、"紅色 "或 "綠色"?？ㄆ?23"不是 4 的倍數(shù)，所以根據(jù)給定的命題，另一面是什么顏色并不重要。如果 "紅色 "和 "綠色 "卡片的另一面的數(shù)字是 4 的倍數(shù)，它們也不會推翻命題，因為命題并沒有說明黃色是唯一可以出現(xiàn)在數(shù)字是 4 的倍數(shù)的卡片的另一面的顏色。

事實上，只有 16、紅色和綠色需要翻轉(zhuǎn)。因此，在精確度方面，這些回答再次表明，GPT-4 并不理解物質(zhì)條件式的語義。

當(dāng) GPT-4 說撲克牌 "50 "和 "30 "必須翻過來時，它似乎把 if 錯當(dāng)成了 if and only if：「當(dāng)這些卡片上顯示的數(shù)字不是 4 的倍數(shù)，它們應(yīng)檢查以確保另一面的顏色不是黃色。如果另一面是黃色，那么就會推翻 "只有 4 的倍數(shù)的另一面是黃色 "這一命題」。當(dāng)然，所檢驗的命題并不要求只有 4 的倍數(shù)的另一面是黃色；它只是要求，如果一張牌的另一面是 4 的倍數(shù)，那么另一面一定是黃色；或者換句話說，如果一張牌的正面不是黃色，那么另一面的數(shù)字就不是 4 的倍數(shù)。

但要注意的是，即使是將規(guī)則錯誤地解釋為一個雙重條件，也沒有得到一致的遵守。如果 GPT-4 將被測試的規(guī)則理解為一個雙重條件，因而不得不翻轉(zhuǎn) 50 和 30，那么它就應(yīng)該對 23 做同樣的事情。但它沒有這樣做。

事實上，它明確地說，撲克牌 "23 "不是 4 的倍數(shù)，因此根據(jù)給定的命題，另一面是什么顏色并不重要，這與它用來作為翻轉(zhuǎn) 50 和 30 的理由的二條件解釋相矛盾。這再次說明了這些例子中出現(xiàn)的另一個重要主題：GPT-4 的回答，無論對錯，往往都存在內(nèi)在的不一致。

除此之外，Konstantine Arkoudas 還在論文中驗證了空間推理、熵、簡單編譯器的正確性、時間推理等能力。

因篇幅問題，我們在本文中只選取以上幾個示例加以說明。

結(jié)論

最終種種驗證無疑證明了 GPT-4 推理能力的慘淡畫面。

結(jié)果表明，該模型存在內(nèi)部不一致性、不能正確應(yīng)用基本推理技術(shù)和缺乏對推理中起基礎(chǔ)性作用的概念(如物質(zhì)條件)的理解等問題。

但是現(xiàn)實中，這些問題往往歸納為大模型帶來的誤差與“幻覺”，實則其實是它不具備推理能力。

鑒于 GPT-4 是目前最有能力的 LLM，Konstantine Arkoudas從這些發(fā)現(xiàn)中得出三個主要結(jié)論：

在軟件開發(fā)(或一般的科學(xué)和工程)中使用生成式人工智能來完成乏味的任務(wù)(作為一種針對知識密集型編碼問題的渦輪增壓自動補(bǔ)全)之外的任何任務(wù)都充滿了嚴(yán)重的風(fēng)險。正確性的規(guī)范標(biāo)準(zhǔn)是至關(guān)重要的，在這些領(lǐng)域，目前的 LLM 不能滿足這樣的標(biāo)準(zhǔn)。就像生成人工智能已經(jīng)開始用糟糕的廣告污染網(wǎng)絡(luò)一樣，它有可能大規(guī)模地增加 Bug 代碼。

如果 LLM 推理繼續(xù)改進(jìn)，嚴(yán)格的證明檢查就可能變得越來越重要。對于應(yīng)用程序來說，對系統(tǒng)推理的正確性有信心是必不可少的，尤其是在科學(xué)、醫(yī)學(xué)和工程領(lǐng)域，而驗證檢查是一種能夠提供這種信任的技術(shù)。這種方法可以通過要求 LLMS 將其推理正規(guī)化(用易于驗證檢查的符號表示法來表示)，或者可能通過培訓(xùn)其他 LLMS 檢查用自然語言表示的一段推理來實現(xiàn)。

就目前情況來看，反烏托邦的場景涉及一個讓人類屈服的流氓人工智能，甚至其他人類使用人工智能來達(dá)到邪惡的目的，是非常牽強(qiáng)的。當(dāng)最先進(jìn)的人工智能系統(tǒng)在空間推理過程中甚至無法區(qū)分左右時，行業(yè)中還有那么多呼吁制定政策和機(jī)構(gòu)來保護(hù)人類免受其 AI 侵害的做法顯然是不成熟的。

爭議

在 Konstantine Arkoudas 看來，當(dāng)前的生成式 AI 還處于發(fā)展的早期，距離推理能力以及 AGI 時代還有很遠(yuǎn)的距離。

此篇論文一經(jīng)發(fā)布，也在 HN 上吸引了很多人的關(guān)注與討論，難道過去 5 個月間，我們都被騙了嗎？

不過，他的這一獨(dú)特的看法，也得到了不少 AI 學(xué)者的認(rèn)同。

人工智能領(lǐng)域內(nèi)的“叛逆者”、紐約大學(xué)心理學(xué)和神經(jīng)科學(xué)榮譽(yù)教授Gary Marcus 發(fā)推文表示：“如果這是真的——正如我早就說過的——我們距離通用人工智能還差得很遠(yuǎn)。可能需要進(jìn)行大量的重新校準(zhǔn)：沒有推理就不可能擁有通用人工智能。”

@SiSafLtd首席人工智能官 Nikos Tzagarakis 表示，“深度學(xué)習(xí)算法是為了根據(jù)感知進(jìn)行預(yù)測而構(gòu)建的。他們可能會偽造推理，但實際上這是感知?！?/p>

不過，也有網(wǎng)友提出質(zhì)疑：

我瀏覽了這些資料，并嘗試重現(xiàn)了一些報告的故障，從中得出了兩個結(jié)論。

1. 作者不善于 Prompt。有很多方法可以減少幻覺，為模型提供更好的思考路徑。

2. 作者使用的是 ChatGPT 的 GPT-4，導(dǎo)致他將 "GPT-4 "與 "ChatGPT "混為一談。雖然你可以認(rèn)為這是 OpenAI 的共同失誤，但由于 OpenAI 的溝通不暢，任何認(rèn)真評估這些模型的人都會知道，你需要做的第一件事就是使用 API 并鎖定模型版本。就作者而言，他應(yīng)該使用 gpt-4-0314 或 gpt-4-0613。我懷疑他只是使用了 ChatGPT 的 GPT-4，而且很可能是默認(rèn)模型。(任何人都不應(yīng)該使用默認(rèn)模式。這是性能優(yōu)化最差的模型，在推理任務(wù)上的表現(xiàn)比 Plugins 模型更差，甚至在上下文大小的任務(wù)上也是如此）。

如果作者一直在認(rèn)真地評估模型，那么說明模型是他要做的第一件事。也許他應(yīng)該解釋一下他的理由。

至此，你怎么看？

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8544

瀏覽量
136350
GPT

GPT

+關(guān)注

關(guān)注
0

文章
368

瀏覽量
16737
OpenAI

OpenAI

+關(guān)注

關(guān)注
9

文章
1238

瀏覽量
9843
ChatGPT

ChatGPT

+關(guān)注

關(guān)注
31

文章
1596

瀏覽量
10126
LLM

LLM

+關(guān)注

關(guān)注
1

文章
341

瀏覽量
1272