chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

港中文賈佳亞團(tuán)隊(duì)聯(lián)手MIT發(fā)布超長(zhǎng)文本擴(kuò)展技術(shù),打破LLM遺忘魔咒

人工智能與大數(shù)據(jù)技術(shù) ? 來(lái)源:新智元 ? 2023-10-18 15:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【導(dǎo)讀】大模型上下文從此不再受限!港中文賈佳亞團(tuán)隊(duì)聯(lián)手MIT發(fā)布了全新超長(zhǎng)文本擴(kuò)展技術(shù)LongLoRA,只需2行代碼,讓LLM看小說(shuō),讀論文,輕松拿捏。

中途迷失、模型偷懶、上下文越長(zhǎng)大模型越笨……

體驗(yàn)過LLM的人,多少都會(huì)對(duì)文本輸入長(zhǎng)度帶來(lái)的限制有所感觸:

想和大模型討論一些稍長(zhǎng)的內(nèi)容,就需要拆分輸入,而前面輸入的要點(diǎn),很快就會(huì)被大模型忘記。

實(shí)際上,這些都是典型的大語(yǔ)言模型對(duì)話缺陷。就像先天有注意力缺陷的兒童,難以專注看完一本新書。而缺陷的關(guān)鍵,在于模型缺乏長(zhǎng)文本處理能力。

如今,這個(gè)局面已經(jīng)被打破了!

就在近日,由賈佳亞團(tuán)隊(duì)聯(lián)合MIT發(fā)布的新技術(shù)和新模型,悄然登上各大開源網(wǎng)站的熱榜:

Hugging Face熱榜第一、Papers With Code熱度第一,Github全部Python項(xiàng)目熱度第五、Github Stars一周內(nèi)破千,Twitter上的相關(guān)技術(shù)帖子瀏覽量近18萬(wàn)。..。..

0f7c3d5e-6d58-11ee-939d-92fbcf53809c.png

論文地址:https://arxiv.org/abs/2309.12307

代碼和Demo地址:https://github.com/dvlab-research/LongLoRA

0f8c40e6-6d58-11ee-939d-92fbcf53809c.png

GitHub Stars已達(dá)1.3k

0f9797d4-6d58-11ee-939d-92fbcf53809c.png

Twitter上的相關(guān)技術(shù)帖子瀏覽量近18萬(wàn)

這項(xiàng)名為L(zhǎng)ongLoRA的技術(shù)實(shí)用但卻簡(jiǎn)單得令人驚訝:

只需兩行代碼、一臺(tái)8卡A100機(jī)器,便可將7B模型的文本長(zhǎng)度拓展到100k tokens,70B模型的文本長(zhǎng)度拓展到32k tokens。

同時(shí),該研究團(tuán)隊(duì)還發(fā)布了首個(gè)擁有70B參數(shù)量的長(zhǎng)文本對(duì)話大語(yǔ)言模型LongAlpaca。

全球首個(gè)70B長(zhǎng)文本大語(yǔ)言模型發(fā)布

LongLoRA的提出,讓全球大語(yǔ)言模型的對(duì)話缺陷第一次得到解決,自此,幾十頁(yè)的論文、幾百頁(yè)的報(bào)告、鴻篇巨制不再成為大模型盲區(qū)。

對(duì)此,有專業(yè)人士激動(dòng)地表示,LongLoRA是大語(yǔ)言模型迷宮中的希望之燈!

它代表著業(yè)界對(duì)長(zhǎng)文本大語(yǔ)言模型的重新思考和關(guān)注,有效擴(kuò)展了大語(yǔ)言模型的上下文窗口,允許模型考慮和處理較長(zhǎng)的文本序列,是大語(yǔ)言模型的革新性發(fā)明。

0fa3aa1a-6d58-11ee-939d-92fbcf53809c.png

除了技術(shù)革新外,大語(yǔ)言模型處理長(zhǎng)文本問題的一大難點(diǎn)還在于缺少公開的長(zhǎng)文本對(duì)話數(shù)據(jù)。

為此,研究團(tuán)隊(duì)特意收集了9k條長(zhǎng)文本問答語(yǔ)料對(duì),包含針對(duì)名著、論文、深度報(bào)道甚至財(cái)務(wù)報(bào)表的各類問答。

光會(huì)回答長(zhǎng)問題還不夠,該團(tuán)隊(duì)又挑選了3k的短問答語(yǔ)料與9K的長(zhǎng)問答語(yǔ)料混合訓(xùn)練,讓長(zhǎng)文本大模型同時(shí)具備短文本對(duì)話能力。這個(gè)完整的數(shù)據(jù)集被稱為L(zhǎng)ongAlpaca-12k,目前已經(jīng)開源。

在LongAlpaca-12k數(shù)據(jù)集基礎(chǔ)上,研究團(tuán)隊(duì)對(duì)不同參數(shù)大小7B、13B、70B進(jìn)行了訓(xùn)練和評(píng)測(cè),開源模型包括LongAlpaca-7B、LongAlpaca-13B和LongAlpaca-70B。

看小說(shuō)、改論文、指點(diǎn)經(jīng)濟(jì)堪稱全能王

話不多說(shuō),盲選幾個(gè)demo,一起看看應(yīng)用了LongLoRA技術(shù)疊加12K問答語(yǔ)料的大模型LongAlpaca效果。

0fad40ca-6d58-11ee-939d-92fbcf53809c.png

讓系統(tǒng)新讀一篇論文,并根據(jù)ICLR的審查指南,對(duì)其提出修改意見,從而提升該論文的接收率:

LongAlpaca的意見是:通過更精確地闡明新穎性,提供更嚴(yán)格和更有對(duì)比性的實(shí)驗(yàn)結(jié)果(包括具體的數(shù)據(jù)集和指標(biāo))、更廣泛的應(yīng)用和未來(lái)發(fā)展方向,重點(diǎn)呈現(xiàn)關(guān)鍵貢獻(xiàn)和影響,論文被接受的機(jī)會(huì)將得到提高。

0fcaaae8-6d58-11ee-939d-92fbcf53809c.png

現(xiàn)在,讓系統(tǒng)讀兩篇新的不同的論文,讓LongAlpaca概括ICLR和CVPR兩個(gè)會(huì)議之間的風(fēng)格區(qū)別:

LongAlpaca總結(jié)認(rèn)為,CVPR論文傾向更具結(jié)構(gòu)性和實(shí)驗(yàn)性的風(fēng)格,專注于實(shí)用性和技術(shù)性。而ICLR的論文風(fēng)格更加靈活,側(cè)重關(guān)鍵的理論分析和數(shù)學(xué)推導(dǎo),而非標(biāo)準(zhǔn)格式。

可以看出,經(jīng)過訓(xùn)練的LongAlpaca模型已經(jīng)可以很輕松地接受新的長(zhǎng)篇學(xué)術(shù)論文,在學(xué)術(shù)相關(guān)問題的回答上相當(dāng)精準(zhǔn)。

接下來(lái),再看看LongAlpaca模型在頗高閱讀和理解門檻的經(jīng)濟(jì)領(lǐng)域的解讀表現(xiàn)。

0fd011c2-6d58-11ee-939d-92fbcf53809c.png

0fe03494-6d58-11ee-939d-92fbcf53809c.png

根據(jù)國(guó)際貨幣基金組織從2012年到2023年的全球經(jīng)濟(jì)展望的概述合集,對(duì)經(jīng)濟(jì)形勢(shì)進(jìn)行逐年總結(jié)以及對(duì)未來(lái)經(jīng)濟(jì)趨勢(shì)進(jìn)行預(yù)測(cè):

LongAlpaca告訴我們,2023年全球經(jīng)濟(jì)形勢(shì)不明朗,跟2022年相比,增長(zhǎng)預(yù)計(jì)放緩;未來(lái)幾年,全球經(jīng)濟(jì)擴(kuò)張速度偏溫和并將低于預(yù)期,而地緣政治緊張、金融市場(chǎng)波動(dòng)等大的挑戰(zhàn)依然存在,需通過多邊合作和結(jié)構(gòu)性改革小心應(yīng)對(duì)。

此外,LongAlpaca還可以讀新的長(zhǎng)篇小說(shuō),讀完后對(duì)內(nèi)容進(jìn)行分析。

下面選取的對(duì)比模型是13B參數(shù)的LongAlpaca和Llama2,且看各自表現(xiàn)。

0fe4e098-6d58-11ee-939d-92fbcf53809c.png

名著《西游記》中,為什么孫悟空在大鬧天宮時(shí)很厲害,但取經(jīng)路上卻屢屢受挫?

LongAlpaca給出了5點(diǎn)原因,大概可總結(jié)為:「孫悟空的不成熟、強(qiáng)大的對(duì)手、力量的限制、敵人的欺騙、最初缺少同伴等因素導(dǎo)致了他在旅途中的失敗。但隨著時(shí)間推移,他獲得了智慧、經(jīng)驗(yàn)和戰(zhàn)友,使他最終戰(zhàn)勝了最強(qiáng)大的敵人?!?/p>

而Llama2并沒有給出正確答案:「雖然他確實(shí)大鬧天宮,但說(shuō)他代表著不敗的力量并不一定準(zhǔn)確。事實(shí)上,他最終在西游記中被強(qiáng)大的唐三藏打敗?!?/p>

0ff7dff4-6d58-11ee-939d-92fbcf53809c.png

這一次讓系統(tǒng)新讀一次《三體》,然后問第一部中,葉文潔為什么要聯(lián)系外星人,而后期又為什么后悔?

LongAlpaca認(rèn)為,葉文潔最初接觸外星人是出于理想主義和復(fù)仇,但隨著時(shí)間的推移,她對(duì)人類的看法發(fā)生了變化,意識(shí)到自己可能給全人類帶來(lái)的危險(xiǎn),她的悔恨與日俱增。回答得十分清晰。

而Llama2的回答則是,「通過與外星人的互動(dòng),她希望能更深入地了解宇宙的本質(zhì),以及自己在宇宙中的位置。葉文潔逐漸意識(shí)到,外星人和他們的技術(shù)并不能解決她的問題?!够卮鸹\統(tǒng),之后開始對(duì)小說(shuō)整體進(jìn)行評(píng)論,答非所問。

從模型給出的答案可發(fā)現(xiàn),一些模型如Llama2[2]可能在預(yù)訓(xùn)練過程中見過相關(guān)小說(shuō),但如果在提問時(shí)進(jìn)行僅根據(jù)小說(shuō)題目進(jìn)行短文本提問的話,回答并不理想。

兩個(gè)模型的回答對(duì)比,高下立見。LongAlpaca改學(xué)術(shù)論文、點(diǎn)評(píng)全球經(jīng)濟(jì)大勢(shì)和讀小說(shuō),都是一把好手,完勝Llama2。

兩行代碼和三個(gè)關(guān)鍵結(jié)論

Llama2可以說(shuō)是AI社區(qū)內(nèi)最強(qiáng)大的開源大模型之一,行業(yè)位置領(lǐng)先,LongAlpaca居然可以完勝。其背后的LongLoRA技術(shù)成功引起網(wǎng)友們的注意,到底是怎么做到的?

原來(lái)大語(yǔ)言模型對(duì)長(zhǎng)文本處理過程中,計(jì)算量的主要開銷集中在自注意力機(jī)制(self-attention),其開銷隨著文本長(zhǎng)度成平方次地增加。

針對(duì)這個(gè)問題,研究團(tuán)隊(duì)提出LongLoRA技術(shù),并用分組和偏移的方式來(lái)對(duì)全局自注意力機(jī)制進(jìn)行模擬。

100e3a7e-6d58-11ee-939d-92fbcf53809c.png

簡(jiǎn)單來(lái)說(shuō),就是將長(zhǎng)文本對(duì)應(yīng)的tokens拆分成不同的組,在每組內(nèi)部做自注意力計(jì)算,而分組的方式在不同注意力頭(attention head)上有所偏移。

這樣的方式既可以大幅度節(jié)約計(jì)算量,又可以維持全局感受野的傳遞。

而且,這個(gè)實(shí)現(xiàn)方法也非常簡(jiǎn)潔,僅兩行代碼即可完成!

10135b12-6d58-11ee-939d-92fbcf53809c.png

除此之外,LongLoRA還探索了低秩訓(xùn)練的方式。

原有的低秩訓(xùn)練方式,如LoRA[5],無(wú)法在文本長(zhǎng)度遷移上取得良好的效果。

而LongLoRA在低秩訓(xùn)練的基礎(chǔ)上,引入嵌入層(Embedding layer和 Normalization layers)進(jìn)行微調(diào),從而達(dá)到可以和全參數(shù)微調(diào)(Full fine-tune)逼近的效果。

101f5340-6d58-11ee-939d-92fbcf53809c.png

進(jìn)行不同長(zhǎng)度文本擴(kuò)展和訓(xùn)練時(shí),LongLoRA、LoRA和全參數(shù)微調(diào)不同技術(shù)的具體效果如何,可以參考三個(gè)維度表現(xiàn):

在Perplexity-困惑度上,原有LoRA方法的性能在不斷惡化,而LongLoRA和全參數(shù)微調(diào)都能在各種文本長(zhǎng)度下維持很好的效果;

在顯存消耗上,相比于全參數(shù)微調(diào),LongLoRA和原有LoRA都有大幅度的節(jié)省。例如,對(duì)于8k長(zhǎng)度的模型訓(xùn)練,相比于全參數(shù)微調(diào),LongLoRA將顯存消耗從46.3GB降低到25.6GB。

在訓(xùn)練時(shí)間上,對(duì)于64k長(zhǎng)度的模型訓(xùn)練,相比于常規(guī)LoRA,LongLoRA將訓(xùn)練時(shí)間從90~100小時(shí)左右降低到52.4小時(shí),而全參數(shù)微調(diào)超過1000小時(shí)。

極簡(jiǎn)的訓(xùn)練方法、極少的計(jì)算資源和時(shí)間消耗,以及極佳的準(zhǔn)確性,令LongLoRA大規(guī)模推廣成為可能。

目前,相關(guān)技術(shù)與模型已全部開源,感興趣的用戶們可以自己部署感受。

值得一提的是,這是賈佳亞團(tuán)隊(duì)繼8月9日發(fā)布的「可以分割一切」的多模態(tài)大模型LISA后的又一力作。

相距不過短短兩個(gè)月,不得不說(shuō),這研究速度和能力跟LongLoRA一樣驚人。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    570

    瀏覽量

    11246
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1229

    瀏覽量

    26031
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    340

    瀏覽量

    1256

原文標(biāo)題:2行代碼,「三體」一次讀完!港中文賈佳亞團(tuán)隊(duì)聯(lián)手MIT發(fā)布超長(zhǎng)文本擴(kuò)展技術(shù),打破LLM遺忘魔咒

文章出處:【微信號(hào):TheBigData1024,微信公眾號(hào):人工智能與大數(shù)據(jù)技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    【CIE全國(guó)RISC-V創(chuàng)新應(yīng)用大賽】+ 一種基于LLM的可通過圖像語(yǔ)音控制的元件庫(kù)管理工具

    一種基于LLM的可通過圖像語(yǔ)音控制的元件庫(kù)管理工具 項(xiàng)目概述 ? 庫(kù)存管理在我們的生活中幾乎無(wú)處不在,在許多小型的庫(kù)存當(dāng)中,比如實(shí)驗(yàn)室中的庫(kù)存管理,往往沒有人去專職維護(hù),這就會(huì)導(dǎo)致在日積月累中逐漸
    發(fā)表于 11-12 19:32

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    ,TensorRT LLM 還承擔(dān)著推理領(lǐng)域新技術(shù)載體的角色,通過將前沿創(chuàng)新引入 LLM 推理生態(tài),持續(xù)提升整個(gè)生態(tài)系統(tǒng)合作伙伴的技術(shù)能力。
    的頭像 發(fā)表于 10-21 11:04 ?724次閱讀

    廣和通發(fā)布端側(cè)情感對(duì)話大模型FiboEmo-LLM

    9月,廣和通正式發(fā)布自主研發(fā)的端側(cè)情感對(duì)話大模型FiboEmo-LLM。該模型專注于情感計(jì)算與自然語(yǔ)言交互融合,致力于為AI玩具、智能陪伴設(shè)備等終端場(chǎng)景提供“情感理解-情感響應(yīng)”一體化能力,推動(dòng)終端人工智能向更具人性化、情感化的方向演進(jìn)。
    的頭像 發(fā)表于 09-26 13:37 ?1588次閱讀

    3萬(wàn)字長(zhǎng)文!深度解析大語(yǔ)言模型LLM原理

    我們正在參加全球電子成就獎(jiǎng)的評(píng)選,歡迎大家?guī)臀覀兺镀薄x謝支持本文轉(zhuǎn)自:騰訊技術(shù)工程作者:royceshao大語(yǔ)言模型LLM的精妙之處在于很好地利用數(shù)學(xué)解決了工業(yè)場(chǎng)景的問題,筆者基于過往工程經(jīng)驗(yàn)
    的頭像 發(fā)表于 09-02 13:34 ?3032次閱讀
    3萬(wàn)字<b class='flag-5'>長(zhǎng)文</b>!深度解析大語(yǔ)言模型<b class='flag-5'>LLM</b>原理

    LM Studio使用NVIDIA技術(shù)加速LLM性能

    隨著 AI 使用場(chǎng)景不斷擴(kuò)展(從文檔摘要到定制化軟件代理),開發(fā)者和技術(shù)愛好者正在尋求以更 快、更靈活的方式來(lái)運(yùn)行大語(yǔ)言模型(LLM)。
    的頭像 發(fā)表于 06-06 15:14 ?763次閱讀
    LM Studio使用NVIDIA<b class='flag-5'>技術(shù)</b>加速<b class='flag-5'>LLM</b>性能

    小白學(xué)大模型:從零實(shí)現(xiàn) LLM語(yǔ)言模型

    在當(dāng)今人工智能領(lǐng)域,大型語(yǔ)言模型(LLM)的開發(fā)已經(jīng)成為一個(gè)熱門話題。這些模型通過學(xué)習(xí)大量的文本數(shù)據(jù),能夠生成自然語(yǔ)言文本,完成各種復(fù)雜的任務(wù),如寫作、翻譯、問答等。https
    的頭像 發(fā)表于 04-30 18:34 ?1042次閱讀
    小白學(xué)大模型:從零實(shí)現(xiàn) <b class='flag-5'>LLM</b>語(yǔ)言模型

    技術(shù)與海康威視達(dá)成戰(zhàn)略合作

    近日,武漢技術(shù)股份有限公司(以下簡(jiǎn)稱“技術(shù)”)與??低暫炗啈?zhàn)略合作協(xié)議,技術(shù)董事長(zhǎng)
    的頭像 發(fā)表于 04-03 16:14 ?827次閱讀

    詳解 LLM 推理模型的現(xiàn)狀

    領(lǐng)域的最新研究進(jìn)展,特別是自DeepSeekR1發(fā)布后興起的推理時(shí)間計(jì)算擴(kuò)展相關(guān)內(nèi)容。在LLM中實(shí)施和改進(jìn)推理簡(jiǎn)單來(lái)說(shuō),基于LLM的推理模型是一種旨在通過生成中間
    的頭像 發(fā)表于 04-03 12:09 ?1216次閱讀
    詳解 <b class='flag-5'>LLM</b> 推理模型的現(xiàn)狀

    《AI Agent 應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》閱讀心得3——RAG架構(gòu)與部署本地知識(shí)庫(kù)

    不僅解決了LLM的知識(shí)更新問題,更為構(gòu)建專業(yè)領(lǐng)域的智能問答系統(tǒng)提供了完整的技術(shù)方案。通過與向量數(shù)據(jù)庫(kù)的深度集成,RAG實(shí)現(xiàn)了知識(shí)的動(dòng)態(tài)擴(kuò)展和精準(zhǔn)檢索,這種架構(gòu)設(shè)計(jì)為AI系統(tǒng)的持續(xù)進(jìn)化提供了可能。在
    發(fā)表于 03-07 19:49

    飛凌RK3588開發(fā)板上部署DeepSeek-R1大模型的完整指南(一)

    DeepSeek作為國(guó)產(chǎn)AI大數(shù)據(jù)模型的代表,憑借其卓越的推理能力和高效的文本生成技術(shù),在全球人工智能領(lǐng)域引發(fā)廣泛關(guān)注。DeepSeek-R1作為該系列最新迭代版本,實(shí)現(xiàn)了長(zhǎng)文本處理效能躍遷、多模態(tài)
    的頭像 發(fā)表于 02-21 14:55 ?2975次閱讀
    飛凌RK3588開發(fā)板上部署DeepSeek-R1大模型的完整指南(一)

    E Ink元太科技與MIT Solve合作推動(dòng)創(chuàng)新技術(shù)獎(jiǎng)

    Ink元太科技將設(shè)立“E Ink創(chuàng)新獎(jiǎng)”,在未來(lái)三年內(nèi)提供總計(jì)高達(dá)30萬(wàn)美元(每年最高10萬(wàn)美元)的獎(jiǎng)勵(lì)基金。這一舉措旨在支持和鼓勵(lì)那些致力于解決全球關(guān)鍵問題的創(chuàng)新團(tuán)隊(duì),推動(dòng)他們?cè)?b class='flag-5'>技術(shù)研發(fā)和應(yīng)用上取得更大突破。 E Ink元太科技表示,此次與
    的頭像 發(fā)表于 02-13 10:19 ?652次閱讀

    阿里云通義開源長(zhǎng)文本新模型Qwen2.5-1M

    近日,阿里云通義宣布了一項(xiàng)重大開源舉措,推出了支持100萬(wàn)Tokens上下文的Qwen2.5-1M模型。這一新模型在處理長(zhǎng)文本任務(wù)中展現(xiàn)出了卓越的性能,穩(wěn)定超越了GPT-4o-mini
    的頭像 發(fā)表于 02-05 14:01 ?763次閱讀

    新品| LLM630 Compute Kit,AI 大語(yǔ)言模型推理開發(fā)平臺(tái)

    LLM630LLM推理,視覺識(shí)別,可開發(fā),靈活擴(kuò)展···LLM630ComputeKit是一款A(yù)I大語(yǔ)言模型推理開發(fā)平臺(tái),專為邊緣計(jì)算和智能交互應(yīng)用而設(shè)計(jì)。該套件的主板搭載愛芯AX630CSoC
    的頭像 發(fā)表于 01-17 18:48 ?1187次閱讀
    新品| <b class='flag-5'>LLM</b>630 Compute Kit,AI 大語(yǔ)言模型推理開發(fā)平臺(tái)

    小白學(xué)大模型:構(gòu)建LLM的關(guān)鍵步驟

    隨著大規(guī)模語(yǔ)言模型(LLM)在性能、成本和應(yīng)用前景上的快速發(fā)展,越來(lái)越多的團(tuán)隊(duì)開始探索如何自主訓(xùn)練LLM模型。然而,是否從零開始訓(xùn)練一個(gè)LLM,并非每個(gè)組織都適合。本文將根據(jù)不同的需求
    的頭像 發(fā)表于 01-09 12:12 ?1544次閱讀
    小白學(xué)大模型:構(gòu)建<b class='flag-5'>LLM</b>的關(guān)鍵步驟

    準(zhǔn)確性超Moshi和GLM-4-Voice,端到端語(yǔ)音雙工模型Freeze-Omni

    問題: ? LLM 災(zāi)難性遺忘:由于現(xiàn)有方案在語(yǔ)音模態(tài)與 LLM 進(jìn)行對(duì)齊時(shí),會(huì)或多或少對(duì) LLM 進(jìn)行微調(diào),但由于要采集到與 LLM 本身
    的頭像 發(fā)表于 12-17 10:21 ?1296次閱讀
    準(zhǔn)確性超Moshi和GLM-4-Voice,端到端語(yǔ)音雙工模型Freeze-Omni