Llama 2性能如何

雖然性能仍不及ChatGPT 3.5，但開源的力量是無法估量的。

相信很多人都被 Meta 發(fā)布的 Llama 2 刷了屏。OpenAI 研究科學(xué)家 Andrej Karpathy 在推特上表示，「對于人工智能和 LLM 來說，這確實是重要的一天。這是目前能夠把權(quán)重提供給所有人使用的最為強大的 LLM?！??

對于開源社區(qū)來說，這個大模型就是「全村的希望」。它的出現(xiàn)將進一步縮小開源大模型與閉源大模型的差距，讓所有人都有機會基于它構(gòu)建自己的大模型應(yīng)用。 ? 因此，在過去的 24 個小時，Llama 2 成了所有社區(qū)成員關(guān)注的焦點。大家都在談?wù)撍男阅?、部署方法以及可能帶來的影響。為了讓大家在第一時間了解這些信息，我們在這篇文章中進行了總結(jié)。 ?

Llama 2 性能究竟如何？ ? 在展示評測結(jié)果之前，我們先來梳理一下 Llama 2 的基本信息： ?

包含 70 億、130 億和 700 億三種參數(shù)變體，此外還訓(xùn)練了 340 億參數(shù)變體，但并沒有發(fā)布，只在技術(shù)報告中提到了。

在 2 萬億的 token 上進行訓(xùn)練，相比于 Llama 1，訓(xùn)練數(shù)據(jù)多了 40%，精調(diào) Chat 模型是在 100 萬人類標(biāo)記數(shù)據(jù)上訓(xùn)練的。

支持的上下文 token 長度翻倍，由原來的 2048 升級到 4096。

免費可商用，但日活大于 7 億的產(chǎn)品需要單獨申請商用權(quán)限。

在 Llama 2 發(fā)布后，整個 Llama 項目的 Github star 量正在逼近 30k。 ?

在 Meta 發(fā)布的論文中，我們還可以看到 Llama 2 的一些性能情況： ?

Llama 2 70B 在 MMLU 和 GSM8K 上得分接近 GPT-3.5，但在編碼基準(zhǔn)上存在顯著差距。

在幾乎所有基準(zhǔn)上，Llama 2 70B 的結(jié)果均與谷歌 PaLM (540B) 持平或表現(xiàn)更好，不過與 GPT-4 和 PaLM-2-L 的性能仍存在較大差距。

也就是說，即使是參數(shù)量最大的 Llama 2 70B，性能目前也沒有超過 GPT-3.5，距離 GPT-4 差距更大。 ? 為了測試一下 Llama 2 的實力，各路網(wǎng)友都在想辦法對其展開測試，比如讓他根據(jù)一些「荒唐」的信息寫一封公司郵件。 ?

還有人已經(jīng)開始直播 Llama 2 和其他類 ChatGPT 產(chǎn)品的 PK： ?

在測試過程中，大家發(fā)現(xiàn)了一些問題，比如 Llama 2 受到的 RLHF 訓(xùn)練似乎太多了點，這導(dǎo)致它非常守規(guī)矩： ?

在一位開發(fā)者制作的免費應(yīng)用程序中，機器之心也上手體驗了一把。 ? 首先，我們問一下 Llama 2 能做什么？Llama 2 回答道：「我可以幫助你處理各種任務(wù)，比如回答問題、提供信息，甚至幫助你完成日常任務(wù)。我只是一個人工智能，無法在現(xiàn)實中執(zhí)行任務(wù)，但我可以為你提供你需要的信息或幫助……」。從語言上來看，Llama 2 支持中文輸入，但回答基本都用英文，中文理解、生成能力有限。 ?

接著問它數(shù)據(jù)截止到什么時候？從 Llama 2 的回答中，我們可以得知，它掌握的數(shù)據(jù)截止日期是 2022 年 12 月。 ?

接著，我們向 Llama 2 詢問了一個不那么貼切的問題。Llama 2 指出了標(biāo)題的不合理性，并給出了一些建議： ?

但是，Llama 2 對雞兔同籠問題還是不擅長。 ?

在推特上，Vicuna（小羊駝）項目創(chuàng)建者公布了他們的系統(tǒng)測試結(jié)果，結(jié)論如下： ?

Llama-2 表現(xiàn)出更強的指令遵循能力，但在信息提取、編碼和數(shù)學(xué)方面仍明顯落后于 GPT-3.5/Claude；

對于安全性的過度敏感可能導(dǎo)致對用戶查詢的錯誤解讀；

在聊天性能上與基于 Llama-1 的領(lǐng)先模型（如 Vicuna、WizardLM）相當(dāng)；

非英語語言技能有限。

以下是一些測試數(shù)據(jù)和結(jié)果： ?

哪些設(shè)備能在本地跑這些模型？ ? 由于 Llama 2 開源了不同大小的版本，這些模型在本地部署方面非常靈活。如果你不想把自己的數(shù)據(jù)傳上網(wǎng)，那么本地部署就是最好的選擇。這一想法可以通過陳天奇等人打造的 MLC-LLM 項目來實現(xiàn)： ?

在之前的報道中，我們提到過這個項目。它的目標(biāo)是讓你「在任何設(shè)備上都能編譯運行大語言模型」，包括移動端、消費級電腦端和 Web 瀏覽器。它支持的平臺包括： ?

在 Llama 2 發(fā)布后，陳天奇等項目成員表示，MLC-LLM 現(xiàn)在支持在本地部署 Llama-2-70B-chat（需要一個帶有 50GB VRAM 的 Apple Silicon Mac 來運行）。在 M2 Ultra 上，解碼速度可以達到～10.0token / 秒。 ?

當(dāng)然，借助 MLC-LLM，運行其他版本的 Llama 2 模型更是不在話下：7B 模型在 Apple M2 Max 上的運行速度約為 46 tok/s，在 RTX 4090 上約為 156 tok/s。 ?

此外，借助陳天奇等人發(fā)布的「MLC Chat」APP（蘋果應(yīng)用商店可以搜到），我們還可以嘗試在手機、iPad 上使用 Llama 2（無需聯(lián)網(wǎng)）。 ?

Llama 2 將帶來哪些影響？ ? 如果 Meta 沒有在今年 2 月份開源 Llama，你可能不知道「羊駝」原來有那么多種寫法：基于這一開源模型的「二創(chuàng)」項目幾乎占用了生物學(xué)羊駝屬的所有英文單詞。在 Meta 將模型迭代到 2.0 版本后，這些項目自然也被拉到了新的起點。 ? 在 Llama 2 發(fā)布不到一天的時間里，能夠像 GPT-4 一樣處理圖像信息的大型多模態(tài)模型「熔巖羊駝 LLaVA」的開發(fā)者就宣布，他們基于 Llama 2 對 LLaVA 進行了更新。新版本增加了對 LLaMA-2 的支持，同時還支持使用學(xué)術(shù)界 GPU 進行 LoRA 訓(xùn)練，以及更高的分辨率（336x336）和 4-/8- 推理等功能。 ?

此外，他們還發(fā)布了新的 LLaVA 變體的預(yù)覽版本，該版本基于最新的經(jīng)過 RLHF 微調(diào)的 LLaMA-2-Chat 檢查點，提供更長的上下文窗口。這些新發(fā)布的版本支持并驗證了在 RTX 3090 和 RTX A6000 上進行的訓(xùn)練，從而使大型多模態(tài)模型的訓(xùn)練更加便捷、更加適用于廣大社區(qū)用戶。 ?

當(dāng)然，這只是一個開始。假以時日，那些基于 Llama 2 的模型會陸陸續(xù)續(xù)上線或更新，「千模大戰(zhàn)」一觸即發(fā)。 ?

對于 Llama 的未來發(fā)展及影響，英偉達高級 AI 科學(xué)家 Jim Fan 也給出了自己的預(yù)測： ?

Llama-2 的訓(xùn)練成本可能超過 2000 萬美元。之前，一些大公司的人工智能研究人員因為商業(yè)許可問題對 Llama-1 持謹(jǐn)慎態(tài)度，但 Llama-2 的商業(yè)限制大大松綁，未來很多人可能會加入 Llama 陣營，并貢獻他們的實力。

雖然 Llama-2 目前還沒有達到 GPT-3.5 的水平，在編程等問題上存在明顯短板，但由于它的權(quán)重是開放的，這些問題早晚會得到改進；

Llama-2 將極大地推動多模態(tài)人工智能和機器人技術(shù)的研究。這些領(lǐng)域需要的不僅僅是對 API 的黑盒訪問。目前，我們必須將復(fù)雜的感官信號（視頻、音頻、3D 感知）轉(zhuǎn)換為文本描述，然后再輸入到 LLM（語言與視覺融合模型）中，這樣做非常笨拙，導(dǎo)致信息損失非常嚴(yán)重。直接將感知模塊嫁接到強大的 LLM 骨干上將更加高效。

對于研發(fā)閉源大模型的企業(yè)來說，Llama 2 的發(fā)布也是意義重大。如果他們研發(fā)的模型本身不夠強大，或者和開源 Llama 2 及其衍生模型的差距不大，那么其商業(yè)價值將很難變現(xiàn)。編輯：黃飛

閱讀全文

人工智能(262996) 人工智能(262996)
ChatGPT(10159) ChatGPT(10159)

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

Llama 2性能如何

評論