chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用語(yǔ)言建模世界:UC伯克利多模態(tài)世界模型利用語(yǔ)言預(yù)測(cè)未來(lái)

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來(lái)源:未知 ? 2023-08-06 22:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

當(dāng)前,人與智能體(比如機(jī)器人)的交互是非常直接的,你告訴它「拿一塊藍(lán)色的積木」,它就會(huì)幫你拿過(guò)來(lái)。但現(xiàn)實(shí)世界的很多信息并非那么直接,比如「扳手可以用來(lái)擰緊螺母」、「我們的牛奶喝完了」。這些信息不能直接拿來(lái)當(dāng)成指令,但卻蘊(yùn)含著豐富的世界信息。智能體很難了解這些語(yǔ)言在世界上的含義。

圖源:谷歌機(jī)器人團(tuán)隊(duì)論文「Interactive Language: Talking to Robots in Real Time」。

UC 伯克利 Dynalang 研究的關(guān)鍵思想是,我們可以將語(yǔ)言看作是幫助我們更好地對(duì)世界進(jìn)行預(yù)測(cè)的工具,比如「我們的牛奶喝完了」→打開(kāi)冰箱時(shí)沒(méi)有牛奶;「扳手可以用來(lái)擰緊螺母」→使用工具時(shí)螺母會(huì)旋轉(zhuǎn)。Dynalang 在一個(gè)模型中結(jié)合了語(yǔ)言模型(LM)和世界模型(WM),使得這種范式變成多模態(tài)。研究者認(rèn)為,將語(yǔ)言生成和行動(dòng)統(tǒng)一在一個(gè)智能體架構(gòu)中是未來(lái)研究的一個(gè)令人興奮的方向。

2f77a8b2-3461-11ee-9e74-dac502259ad0.gif

論文概覽 人工智能長(zhǎng)期以來(lái)的目標(biāo)是開(kāi)發(fā)能夠在物理世界中與人類(lèi)自然交互的智能體。當(dāng)前的具身智能體可以遵循簡(jiǎn)單的低層指令,比如「拿一塊藍(lán)色的積木」或者「經(jīng)過(guò)電梯,然后向右轉(zhuǎn)」。 然而,要實(shí)現(xiàn)自由交流的互動(dòng)智能體,就需要理解人們?cè)凇复藭r(shí)此地」之外使用語(yǔ)言的完整方式,包括:傳遞知識(shí),比如「左上角的按鈕是關(guān)掉電視的」;提供情境信息,如「我們的牛奶喝完了」;以及協(xié)同,比如跟別人說(shuō)「我已經(jīng)吸過(guò)客廳了」。我們?cè)谖谋局虚喿x的很多內(nèi)容或者從他人口中聽(tīng)到的信息都在傳遞有關(guān)世界的知識(shí),無(wú)論是關(guān)于世界如何運(yùn)行還是關(guān)于當(dāng)前世界狀態(tài)的知識(shí)。 我們?nèi)绾问怪悄荏w能夠使用多樣化的語(yǔ)言呢?一種訓(xùn)練基于語(yǔ)言的智能體解決任務(wù)的方法是強(qiáng)化學(xué)習(xí)(RL)。然而,目前的基于語(yǔ)言的 RL 方法主要是學(xué)習(xí)從特定任務(wù)指令生成行動(dòng),例如將目標(biāo)描述「拿起藍(lán)色的積木」作為輸入,輸出一系列運(yùn)動(dòng)控制。 然而,當(dāng)考慮到自然語(yǔ)言在現(xiàn)實(shí)世界中所服務(wù)的多樣功能時(shí),直接將語(yǔ)言映射到最優(yōu)行動(dòng)是一個(gè)具有挑戰(zhàn)性的學(xué)習(xí)問(wèn)題。以「我把碗放好了」為例:如果任務(wù)是清洗,智能體應(yīng)該繼續(xù)進(jìn)行下一個(gè)清洗步驟;而如果是晚餐服務(wù),智能體應(yīng)該去取碗。當(dāng)語(yǔ)言不涉及任務(wù)時(shí),它只與智能體應(yīng)該采取的最優(yōu)行動(dòng)弱相關(guān)。將語(yǔ)言映射到行動(dòng),尤其是僅使用任務(wù)獎(jiǎng)勵(lì),對(duì)于學(xué)會(huì)使用多樣化語(yǔ)言輸入完成任務(wù)來(lái)說(shuō)是一個(gè)弱學(xué)習(xí)信號(hào) 不同的是,UC 伯克利的研究者提出,智能體使用語(yǔ)言的一種統(tǒng)一方法是幫助它們預(yù)測(cè)未來(lái)。前面提到的語(yǔ)句「我把碗放好了」有助于智能體更好地預(yù)測(cè)未來(lái)的觀(guān)察結(jié)果(即,如果它采取行動(dòng)打開(kāi)櫥柜,它將在那里看到碗)。 我們遇到的很多語(yǔ)言可以通過(guò)這種方式與視覺(jué)體驗(yàn)聯(lián)系起來(lái)。先前的知識(shí),比如「扳手可以用來(lái)擰緊螺母」,幫助智能體預(yù)測(cè)環(huán)境變化。諸如「包裹在外面」的陳述有助于智能體預(yù)測(cè)未來(lái)的觀(guān)察結(jié)果。這個(gè)框架還將標(biāo)準(zhǔn)指令遵循歸入預(yù)測(cè)范疇:指令幫助智能體預(yù)測(cè)自己將如何受到獎(jiǎng)勵(lì)。類(lèi)似于下一個(gè) token 預(yù)測(cè)允許語(yǔ)言模型形成關(guān)于世界知識(shí)的內(nèi)部表示,研究者假設(shè)預(yù)測(cè)未來(lái)的表示為智能體理解語(yǔ)言以及它與世界的關(guān)系提供了豐富的學(xué)習(xí)信號(hào)。 361971f0-3461-11ee-9e74-dac502259ad0.png 基于此,他們提出了 Dynalang,一種從在線(xiàn)經(jīng)驗(yàn)中學(xué)習(xí)語(yǔ)言和圖像世界模型,并利用該模型學(xué)習(xí)如何行動(dòng)的智能體。 Dynalang 將學(xué)習(xí)用語(yǔ)言對(duì)世界建模(帶有預(yù)測(cè)目標(biāo)的監(jiān)督學(xué)習(xí))與學(xué)習(xí)根據(jù)該模型采取行動(dòng)(帶有任務(wù)獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí))分離開(kāi)來(lái)。該世界模型接收視覺(jué)和文本輸入作為觀(guān)察模態(tài),并將它們壓縮到潛在空間。研究者通過(guò)在線(xiàn)收集的經(jīng)驗(yàn)訓(xùn)練世界模型,使其能夠預(yù)測(cè)未來(lái)的潛在表示,同時(shí)智能體在環(huán)境中執(zhí)行任務(wù)。他們通過(guò)將世界模型的潛在表示作為輸入,訓(xùn)練策略來(lái)采取最大化任務(wù)獎(jiǎng)勵(lì)的行動(dòng)。由于世界建模與行動(dòng)分離,Dynalang 可以在沒(méi)有行動(dòng)或任務(wù)獎(jiǎng)勵(lì)的單模態(tài)數(shù)據(jù)(僅文本或僅視頻數(shù)據(jù))上進(jìn)行預(yù)訓(xùn)練。 此外,他們的框架還可以統(tǒng)一語(yǔ)言生成:智能體的感知可以影響智能體的語(yǔ)言模型(即其對(duì)未來(lái) token 的預(yù)測(cè)),使其能夠通過(guò)在動(dòng)作空間輸出語(yǔ)言來(lái)描述環(huán)境。 362b8872-3461-11ee-9e74-dac502259ad0.png ?論文鏈接:https://arxiv.org/pdf/2308.01399.pdf項(xiàng)目主頁(yè):https://dynalang.github.io/代碼鏈接:https://github.com/jlin816/dynalang 研究者在具有不同類(lèi)型語(yǔ)言上下文的多樣化環(huán)境中對(duì) Dynalang 進(jìn)行了評(píng)估。在一個(gè)多任務(wù)家庭清潔環(huán)境中,Dynalang 學(xué)會(huì)利用關(guān)于未來(lái)觀(guān)察、環(huán)境動(dòng)態(tài)和修正的語(yǔ)言提示,更高效地完成任務(wù)。在 Messenger 基準(zhǔn)測(cè)試中,Dynalang 可以閱讀游戲手冊(cè)來(lái)應(yīng)對(duì)最具挑戰(zhàn)性的游戲階段,優(yōu)于特定任務(wù)的架構(gòu)。在視覺(jué) - 語(yǔ)言導(dǎo)航中,研究者證明 Dynalang 可以學(xué)會(huì)在視覺(jué)和語(yǔ)言復(fù)雜的環(huán)境中遵循指令。 363dfc96-3461-11ee-9e74-dac502259ad0.pngDynalang 學(xué)會(huì)使用語(yǔ)言來(lái)預(yù)測(cè)未來(lái)的(文本 + 圖像)觀(guān)察結(jié)果和獎(jiǎng)勵(lì),從而幫助解決任務(wù)。在這里,研究者展示了在 HomeGrid 環(huán)境中真實(shí)的模型預(yù)測(cè)結(jié)果。智能體在接收環(huán)境中的視頻和語(yǔ)言觀(guān)察的同時(shí),探索了各種房間。根據(jù)過(guò)去的文本「瓶子在客廳」,在時(shí)間步 61-65,智能體預(yù)測(cè)將在客廳的最后一個(gè)角落看到瓶子。根據(jù)描述任務(wù)的文本「拿起瓶子」,智能體預(yù)測(cè)將因?yàn)槟闷鹌孔佣@得獎(jiǎng)勵(lì)。智能體還可以預(yù)測(cè)未來(lái)的文本觀(guān)察:在時(shí)間步 30,給定前半句「盤(pán)子在」,并觀(guān)察到櫥柜上的盤(pán)子,模型預(yù)測(cè)下一個(gè)最可能的 token 是「廚房」。 366ce272-3461-11ee-9e74-dac502259ad0.png研究者考慮了一系列具有視覺(jué)輸入和多樣化語(yǔ)言的環(huán)境。HomeGrid 是一個(gè)具有指令和多樣化提示的具有挑戰(zhàn)性的視覺(jué)網(wǎng)格世界。Messenger 是一個(gè)具有符號(hào)輸入的基準(zhǔn)測(cè)試,包含數(shù)百個(gè)人工編寫(xiě)的游戲手冊(cè),需要進(jìn)行多次推理。Habitat 是一個(gè)模擬逼真的 3D 家居環(huán)境,用于視覺(jué) - 語(yǔ)言導(dǎo)航,在其中智能體必須在數(shù)百個(gè)場(chǎng)景中定位物體。LangRoom 是一個(gè)簡(jiǎn)單的視覺(jué)網(wǎng)格世界,具有部分可觀(guān)察性,智能體需要同時(shí)生成動(dòng)作和語(yǔ)言。 詳解 Dynalang 工作原理 使用語(yǔ)言來(lái)理解世界很自然地符合世界建模范式。這項(xiàng)工作構(gòu)建在 DreamerV3 的基礎(chǔ)之上,DreamerV3 是一種基于模型的強(qiáng)化學(xué)習(xí)智能體。Dynalang 不斷地從經(jīng)驗(yàn)數(shù)據(jù)中學(xué)習(xí),這些數(shù)據(jù)是智能體在環(huán)境中執(zhí)行任務(wù)時(shí)收集到的。 如下圖(左)所示,在每個(gè)時(shí)間步,世界模型將文本和圖像壓縮成潛在表示。通過(guò)這個(gè)表示,模型被訓(xùn)練用于重建原始觀(guān)察結(jié)果、預(yù)測(cè)獎(jiǎng)勵(lì),并預(yù)測(cè)下一個(gè)時(shí)間步的表示。直觀(guān)地說(shuō),世界模型根據(jù)它在文本中讀到的內(nèi)容,學(xué)習(xí)它應(yīng)該期望在世界中看到什么。 如下圖(右)所示,Dynalang 通過(guò)在壓縮的世界模型表示之上訓(xùn)練策略網(wǎng)絡(luò)來(lái)選擇行動(dòng)。它通過(guò)來(lái)自世界模型的想象的模擬結(jié)果進(jìn)行訓(xùn)練,并學(xué)會(huì)采取能夠最大化預(yù)測(cè)獎(jiǎng)勵(lì)的行動(dòng)。 36d2ecde-3461-11ee-9e74-dac502259ad0.png 與之前逐句或逐段消耗文本的多模態(tài)模型不同,研究者設(shè)計(jì)的 Dynalang 將視頻和文本作為一個(gè)統(tǒng)一的序列來(lái)建模,一次處理一幀圖像和一個(gè)文本 token。直觀(guān)來(lái)說(shuō),這類(lèi)似于人類(lèi)在現(xiàn)實(shí)世界中接收輸入的方式 —— 作為一個(gè)單一的多模態(tài)流,人需要時(shí)間來(lái)聆聽(tīng)語(yǔ)言。將所有內(nèi)容建模為一個(gè)序列使得模型可以像語(yǔ)言模型一樣在文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,并提高強(qiáng)化學(xué)習(xí)的性能。 HomeGrid 中的語(yǔ)言提示 研究者引入了 HomeGrid 來(lái)評(píng)估一個(gè)環(huán)境中的智能體。在這個(gè)環(huán)境中,智能體除了任務(wù)指令外還會(huì)收到語(yǔ)言提示。 HomeGrid 是一個(gè)具有指令和多樣化提示的具有挑戰(zhàn)性的視覺(jué)網(wǎng)格世界。HomeGrid 中的提示模擬了智能體可能從人類(lèi)那里學(xué)到或從文本中獲取的知識(shí),提供了對(duì)解決任務(wù)有幫助但不是必需的信息: 未來(lái)觀(guān)察:描述了智能體未來(lái)可能觀(guān)察到的情況,比如「盤(pán)子在廚房里」。

36df8ade-3461-11ee-9e74-dac502259ad0.gif

Correction:提供了基于智能體當(dāng)前行為的交互式反饋,比如「轉(zhuǎn)身」。 371de784-3461-11ee-9e74-dac502259ad0.gif Dynamics:描述了環(huán)境的動(dòng)態(tài)變化,比如「踩踏板打開(kāi)垃圾桶」。

37736f74-3461-11ee-9e74-dac502259ad0.gif

HomeGrid 環(huán)境將與代碼一起發(fā)布,以鼓勵(lì)大家進(jìn)一步在這個(gè)方向上進(jìn)行研究。 盡管智能體沒(méi)有明確地接受有關(guān)文本對(duì)應(yīng)于什么觀(guān)察結(jié)果的明確監(jiān)督,但 Dynalang 通過(guò)未來(lái)預(yù)測(cè)目標(biāo)學(xué)會(huì)了將各種類(lèi)型的語(yǔ)言與環(huán)境相聯(lián)系。Dynalang 的性能優(yōu)于基于語(yǔ)言的 IMPALA 和 R2D2,這兩種方法在使用不同類(lèi)型的語(yǔ)言上遇到困難,通常在超出指令范圍的語(yǔ)言任務(wù)上表現(xiàn)更差。 386ef79a-3461-11ee-9e74-dac502259ad0.png Messenger 中的游戲手冊(cè) 研究者在 Messenger 游戲環(huán)境中進(jìn)行評(píng)估,以測(cè)試智能體如何從更長(zhǎng)、更復(fù)雜的文本中學(xué)習(xí),這需要對(duì)文本和視覺(jué)觀(guān)察進(jìn)行多次推理。智能體必須對(duì)描述每個(gè)任務(wù)動(dòng)態(tài)的文本手冊(cè)進(jìn)行推理,并將其與環(huán)境中實(shí)體的觀(guān)察結(jié)果結(jié)合起來(lái),以確定哪些實(shí)體應(yīng)該接收消息,哪些應(yīng)該避免。Dynalang 的表現(xiàn)優(yōu)于 IMPALA、R2D2 以及使用專(zhuān)門(mén)架構(gòu)對(duì)文本和觀(guān)察進(jìn)行推理的任務(wù)特定 EMMA 基線(xiàn),特別是在最困難的第三階段。 387b490a-3461-11ee-9e74-dac502259ad0.png ?

38a8a918-3461-11ee-9e74-dac502259ad0.gif

38b55938-3461-11ee-9e74-dac502259ad0.gif

38db336a-3461-11ee-9e74-dac502259ad0.gif

Habitat 中的指令遵循 研究者還展示了 Dynalang 能夠處理逼真的視覺(jué)觀(guān)察,并在 Habitat 中執(zhí)行指令跟隨。智能體必須遵循自然語(yǔ)言指令,在家庭逼真掃描中導(dǎo)航到目標(biāo)位置。在 Dynalang 中,指令遵循可以統(tǒng)一在相同的預(yù)測(cè)框架中,將其視為未來(lái)獎(jiǎng)勵(lì)預(yù)測(cè)。 38e356ee-3461-11ee-9e74-dac502259ad0.png ?38fbe876-3461-11ee-9e74-dac502259ad0.gif ?

3aa3e7b4-3461-11ee-9e74-dac502259ad0.gif

3aba443c-3461-11ee-9e74-dac502259ad0.gif ?基于 LangRoom 的語(yǔ)言生成 就像語(yǔ)言可以影響智能體對(duì)將要看到的事物的預(yù)測(cè)一樣,智能體觀(guān)察到的內(nèi)容也會(huì)影響它對(duì)將要聽(tīng)到的語(yǔ)言的期望(例如,關(guān)于它所看到的內(nèi)容的真實(shí)陳述)。通過(guò)在 LangRoom 中將語(yǔ)言輸出到動(dòng)作空間,研究者展示了 Dynalang 可以生成與環(huán)境相關(guān)聯(lián)的語(yǔ)言,從而進(jìn)行具身問(wèn)答。LangRoom 是一個(gè)簡(jiǎn)單的視覺(jué)網(wǎng)格世界,具有部分可觀(guān)察性,智能體需要在其中產(chǎn)生運(yùn)動(dòng)動(dòng)作和語(yǔ)言。 3c0371a6-3461-11ee-9e74-dac502259ad0.png

3c07efba-3461-11ee-9e74-dac502259ad0.gif

文本預(yù)訓(xùn)練 由于使用語(yǔ)言進(jìn)行世界建模與基于世界模型的行動(dòng)學(xué)習(xí)解耦,Dynalang 可以使用離線(xiàn)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,而無(wú)需行動(dòng)或獎(jiǎng)勵(lì)標(biāo)簽。這種能力使得 Dynalang 能夠從大規(guī)模的離線(xiàn)數(shù)據(jù)集中受益,全部都在單一的模型架構(gòu)內(nèi)實(shí)現(xiàn)。研究者使用僅包含文本數(shù)據(jù)的數(shù)據(jù)對(duì) Dynalang 進(jìn)行預(yù)訓(xùn)練,從零開(kāi)始學(xué)習(xí) token 嵌入。在通用文本數(shù)據(jù)(TinyStories,2M 個(gè)短故事)上預(yù)訓(xùn)練模型,提高了模型在 Messenger 上的下游強(qiáng)化學(xué)習(xí)任務(wù)表現(xiàn),超過(guò)了使用預(yù)訓(xùn)練的 T5 嵌入的結(jié)果。 3c1ee7ba-3461-11ee-9e74-dac502259ad0.png 研究者表示,盡管他們的工作專(zhuān)注于用于在世界中行動(dòng)的語(yǔ)言理解,但它也可以像一個(gè)僅文本語(yǔ)言模型一樣從世界模型中生成文本。研究者在潛在空間中對(duì)預(yù)訓(xùn)練的 TinyStories 模型進(jìn)行模擬的抽樣,然后在每個(gè)時(shí)間步驟從表示中解碼 token 觀(guān)察。盡管生成的文本質(zhì)量仍然低于當(dāng)前語(yǔ)言模型的水平,但模型生成的文本令人驚訝地連貫。他們認(rèn)為將語(yǔ)言生成和行動(dòng)統(tǒng)一在一個(gè)智能體架構(gòu)中是未來(lái)研究的一個(gè)令人興奮的方向。 3c2ebbcc-3461-11ee-9e74-dac502259ad0.png


原文標(biāo)題:用語(yǔ)言建模世界:UC伯克利多模態(tài)世界模型利用語(yǔ)言預(yù)測(cè)未來(lái)

文章出處:【微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:用語(yǔ)言建模世界:UC伯克利多模態(tài)世界模型利用語(yǔ)言預(yù)測(cè)未來(lái)

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    自動(dòng)駕駛中常提的世界模型是個(gè)啥?

    對(duì)外部環(huán)境進(jìn)行抽象和建模的技術(shù),讓自動(dòng)駕駛系統(tǒng)在一個(gè)簡(jiǎn)潔的內(nèi)部“縮影”里,對(duì)真實(shí)世界進(jìn)行描述與預(yù)測(cè),從而為感知、決策和規(guī)劃等關(guān)鍵環(huán)節(jié)提供有力支持。 什么是世界
    的頭像 發(fā)表于 06-24 08:53 ?172次閱讀
    自動(dòng)駕駛中常提的<b class='flag-5'>世界</b><b class='flag-5'>模型</b>是個(gè)啥?

    世界模型:多模態(tài)融合+因果推理,解鎖AI認(rèn)知邊界

    電子發(fā)燒友網(wǎng)綜合報(bào)道 在人工智能的蓬勃發(fā)展進(jìn)程中,世界模型正嶄露頭角,成為推動(dòng)其邁向更高智能水平的關(guān)鍵力量。世界模型作為 AI 系統(tǒng)對(duì)外部世界
    的頭像 發(fā)表于 06-23 04:49 ?2440次閱讀

    Matter 智能家居的通用語(yǔ)言

    Matter由連接標(biāo)準(zhǔn)聯(lián)盟(CSA)創(chuàng)建,旨在解決智能家居的互操作性問(wèn)題。Matter 基于簡(jiǎn)單性、互操作性、可靠性和安全性四大核心原則 。 是采用基于 IP 應(yīng)用層的開(kāi)源協(xié)議,本質(zhì)上是一種“通用語(yǔ)言
    發(fā)表于 05-19 15:35

    商湯“日日新”融合大模型登頂大語(yǔ)言與多模態(tài)雙榜單

    據(jù)弗若斯特沙利文(Frost & Sullivan, 簡(jiǎn)稱(chēng)“沙利文”)聯(lián)合頭豹研究院發(fā)布的《2025年中國(guó)大模型年度評(píng)測(cè)》結(jié)果顯示:在語(yǔ)言和多模態(tài)核心能力測(cè)評(píng)中,商湯“日日新”融合大模型
    的頭像 發(fā)表于 03-18 10:35 ?584次閱讀

    ?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析

    視覺(jué)語(yǔ)言模型(Visual Language Model, VLM)是一種結(jié)合視覺(jué)(圖像/視頻)和語(yǔ)言(文本)處理能力的多模態(tài)人工智能模型
    的頭像 發(fā)表于 03-17 15:32 ?4133次閱讀
    ?VLM(視覺(jué)<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>)?詳細(xì)解析

    FPGA+AI王炸組合如何重塑未來(lái)世界:看看DeepSeek東方神秘力量如何預(yù)測(cè)......

    ”“大模型圈的大黑馬”“硅谷震驚了”“來(lái)自中國(guó)的學(xué)霸級(jí)AI”…… 從智能手機(jī)到自動(dòng)駕駛,從數(shù)據(jù)中心到物聯(lián)網(wǎng),F(xiàn)PGA 正悄然改變著我們的生活。未來(lái),F(xiàn)PGA 又將如何塑造世界?DeepSeek 帶你一起
    發(fā)表于 03-03 11:21

    一文詳解視覺(jué)語(yǔ)言模型

    視覺(jué)語(yǔ)言模型(VLM)是一種多模態(tài)、生成式 AI 模型,能夠理解和處理視頻、圖像和文本。
    的頭像 發(fā)表于 02-12 11:13 ?1766次閱讀
    一文詳解視覺(jué)<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>

    語(yǔ)言模型管理的作用

    要充分發(fā)揮語(yǔ)言模型的潛力,有效的語(yǔ)言模型管理非常重要。以下,是對(duì)語(yǔ)言模型管理作用的分析,由AI部
    的頭像 發(fā)表于 01-02 11:06 ?389次閱讀

    語(yǔ)言模型開(kāi)發(fā)框架是什么

    語(yǔ)言模型開(kāi)發(fā)框架是指用于訓(xùn)練、推理和部署大型語(yǔ)言模型的軟件工具和庫(kù)。下面,AI部落小編為您介紹大語(yǔ)言
    的頭像 發(fā)表于 12-06 10:28 ?529次閱讀

    語(yǔ)言模型開(kāi)發(fā)語(yǔ)言是什么

    在人工智能領(lǐng)域,大語(yǔ)言模型(Large Language Models, LLMs)背后,離不開(kāi)高效的開(kāi)發(fā)語(yǔ)言和工具的支持。下面,AI部落小編為您介紹大語(yǔ)言
    的頭像 發(fā)表于 12-04 11:44 ?703次閱讀

    一文理解多模態(tài)語(yǔ)言模型——下

    /understanding-multimodal-llms ? 《一文理解多模態(tài)語(yǔ)言模型 - 上》介紹了什么是多模態(tài)語(yǔ)言
    的頭像 發(fā)表于 12-03 15:18 ?603次閱讀
    一文理解多<b class='flag-5'>模態(tài)</b>大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>——下

    一文理解多模態(tài)語(yǔ)言模型——上

    /understanding-multimodal-llms 在過(guò)去幾個(gè)月中, OpenVINO? 架構(gòu)師 Yury閱讀了眾多有關(guān)多模態(tài)語(yǔ)言模型的論文和博客,在此基礎(chǔ)上,推薦了一篇解讀多模態(tài)
    的頭像 發(fā)表于 12-02 18:29 ?1189次閱讀
    一文理解多<b class='flag-5'>模態(tài)</b>大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>——上

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    的表達(dá)方式和生成能力。通過(guò)預(yù)測(cè)文本中缺失的部分或下一個(gè)詞,模型逐漸掌握語(yǔ)言的規(guī)律和特征。 常用的模型結(jié)構(gòu) Transformer架構(gòu):大語(yǔ)言
    發(fā)表于 08-02 11:03

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇

    今天開(kāi)始學(xué)習(xí)《大語(yǔ)言模型應(yīng)用指南》第一篇——基礎(chǔ)篇,對(duì)于人工智能相關(guān)專(zhuān)業(yè)技術(shù)人員應(yīng)該可以輕松加愉快的完成此篇閱讀,但對(duì)于我還是有許多的知識(shí)點(diǎn)、專(zhuān)業(yè)術(shù)語(yǔ)比較陌生,需要網(wǎng)上搜索學(xué)習(xí)更多的資料才能理解書(shū)中
    發(fā)表于 07-25 14:33

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 俯瞰全書(shū)

    的機(jī)會(huì)! 本人曾經(jīng)也參與過(guò)語(yǔ)音識(shí)別產(chǎn)品的開(kāi)發(fā),包括在線(xiàn)和離線(xiàn)識(shí)別,但僅是應(yīng)用語(yǔ)言模型實(shí)現(xiàn)端側(cè)的應(yīng)用開(kāi)發(fā),相當(dāng)于調(diào)用模型的接口函數(shù),實(shí)際對(duì)模型的設(shè)計(jì)、訓(xùn)練和運(yùn)行機(jī)理并不了解,我想通過(guò)學(xué)習(xí)
    發(fā)表于 07-21 13:35