chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

格靈深瞳多模態(tài)大模型Glint-ME讓圖文互搜更精準(zhǔn)

格靈深瞳 ? 來源:格靈深瞳 ? 2025-11-02 15:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在電商、安防等場景下,圖文互搜應(yīng)用廣泛。隨著以CLIP為代表的多模態(tài)表征方法相繼提出,過去單一模態(tài)搜索(文搜文、圖搜圖)被突破,模型可以同時(shí)理解文本、圖像、音頻乃至視頻,實(shí)現(xiàn)跨模態(tài)檢索。

與此同時(shí),CLIP框架也存在多種技術(shù)局限性。10月25日,在由DataFun技術(shù)社區(qū)策劃的DACon數(shù)智大會(huì)分論壇上,格靈深瞳技術(shù)副總裁、靈感實(shí)驗(yàn)室負(fù)責(zé)人馮子勇博士分享專題演講:《多模態(tài)特征嵌入的數(shù)據(jù)生成和技術(shù)前沿》,介紹多模態(tài)基礎(chǔ)模型的應(yīng)用場景、技術(shù)短板,以及靈感團(tuán)隊(duì)的解題方法與技術(shù)細(xì)節(jié)——靈感圖文多模態(tài)表征模型系列(Glint-ME)。

“大模型前沿技術(shù)探索”分論壇現(xiàn)場

數(shù)據(jù)生成:豐富又優(yōu)質(zhì)的多模態(tài)表征數(shù)據(jù)

多模態(tài)模型訓(xùn)練需文本和圖片成對(duì)出現(xiàn),但現(xiàn)有數(shù)據(jù)文本質(zhì)量不佳。為此,靈感團(tuán)隊(duì)提出了一個(gè)多樣化描述生成框架,將Transformer的有效并行訓(xùn)練與RNN的有效推理相結(jié)合,利用大型語言模型來精煉原始文本、合成字幕和檢測標(biāo)簽等信息,以產(chǎn)生語義豐富的描述文本。

為解決訓(xùn)練數(shù)據(jù)冗余的問題,靈感團(tuán)隊(duì)提出了一種簡單但有效的圖像語義平衡方法,能夠在保持卓越性能的同時(shí),從LAION 400M數(shù)據(jù)集中移除43.7%的圖像-文本對(duì)。

為挖掘現(xiàn)實(shí)中大量未配對(duì)的多模態(tài)數(shù)據(jù),例如圖文交織的文檔,靈感團(tuán)隊(duì)提出了一種有效且可擴(kuò)展的多模態(tài)交錯(cuò)文檔轉(zhuǎn)換范式,構(gòu)建了RealSyn數(shù)據(jù)集,可以將此類數(shù)據(jù)用于CLIP預(yù)訓(xùn)練。

團(tuán)隊(duì)首先建立了一套真實(shí)數(shù)據(jù)提取流程,能夠從圖文交錯(cuò)的文檔中提取高質(zhì)量的圖像和文本。在此基礎(chǔ)上,構(gòu)建了檢索增強(qiáng)生成框架,基于高質(zhì)量的文本和圖片庫,為每一張圖片匹配現(xiàn)實(shí)文本和合成文本。

RealSyn數(shù)據(jù)集包含15M、30M、100M三個(gè)規(guī)模。大量實(shí)驗(yàn)證明:RealSyn具有良好的數(shù)據(jù)縮放和模型縮放能力,相關(guān)數(shù)據(jù)、代碼和模型均已開源:

技術(shù)報(bào)告:

https://arxiv.org/abs/2502.12513

代碼:

https://github.com/deepglint/RealSyn

項(xiàng)目主頁:

https://garygutc.github.io/RealSyn/

數(shù)據(jù)集:

https://huggingface.co/datasets/Kaichengalex/RealSyn100M

多模態(tài)特征嵌入模型:更強(qiáng)大的跨模態(tài)表達(dá)能力

盡管最近的多模態(tài)大型語言模型(MLLMs)在通用視覺-語言理解方面取得了顯著進(jìn)展,但在學(xué)習(xí)可遷移的多模態(tài)表征方面,潛力尚未充分發(fā)揮。

為此,靈感團(tuán)隊(duì)提出了一個(gè)面向MLLMs的兩階段訓(xùn)練框架UniME(Universal Multimodal Embedding,通用多模態(tài)嵌入),并優(yōu)化迭代至V2版本——聚焦如何借助MLLMs強(qiáng)大的理解能力來助力統(tǒng)一多模態(tài)表征學(xué)習(xí)。

經(jīng)過MMEB基準(zhǔn)測試和在多個(gè)檢索任務(wù)(包括長短文本跨模態(tài)檢索和組合檢索)上的大量實(shí)驗(yàn),結(jié)果表明UniME-V2在多項(xiàng)任務(wù)中均實(shí)現(xiàn)了穩(wěn)定的性能提升,展現(xiàn)了卓越的判別能力和組合理解能力。

64cf86cc-b643-11f0-8c8f-92fbcf53809c.png

UniME-V2在MMEB Benchmark的表現(xiàn)

6531cbfc-b643-11f0-8c8f-92fbcf53809c.png

UniME-V2在長短文本跨模態(tài)檢索和組合檢索上優(yōu)于UniME-V1和其他模型

UniME系列論文、代碼、權(quán)重均已開源:

UniME-V1

技術(shù)報(bào)告:

https://arxiv.org/abs/2504.17432

代碼:

https://github.com/deepglint/UniME

模型:

https://huggingface.co/DeepGlint-AI/UniME-LLaVA-OneVision-7B

項(xiàng)目主頁:

https://garygutc.github.io/UniME/

UniME-V2

技術(shù)報(bào)告:

https://arxiv.org/abs/2504.17432

代碼:

https://github.com/GaryGuTC/UniME-v2

模型:

https://huggingface.co/collections/TianchengGu/unime-v2-68ef708ac48066353b4a0806

項(xiàng)目主頁:

https://garygutc.github.io/UniME-v2/

近期,靈感實(shí)驗(yàn)室聯(lián)合LMMs-Lab發(fā)布了全流程開源的多模態(tài)大模型LLaVA-OneVision-1.5,復(fù)現(xiàn)路徑清晰,8B模型預(yù)訓(xùn)練只需4天、1.6萬美元。

LLaVA-OneVision-1.5

技術(shù)報(bào)告:

https://arxiv.org/abs/2509.23661

代碼:

https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5

模型:

https://huggingface.co/lmms-lab/LLaVA-OneVision-1.5-8B-Instruct

Demo:

https://huggingface.co/spaces/lmms-lab/LLaVA-OneVision-1.5

數(shù)據(jù)集:

Pretrain Data:https://huggingface.co/datasets/lmms-lab/LLaVA-One-Vision-1.5-Mid-Training-85M

Instruct Data:https://huggingface.co/datasets/lmms-lab/LLaVA-OneVision-1.5-Insturct-Data

未來,靈感實(shí)驗(yàn)室將持續(xù)聚焦視覺及多模態(tài)特征表達(dá)與應(yīng)用,推動(dòng)多模態(tài)技術(shù)在多元化應(yīng)用場景的落地與創(chuàng)新。歡迎關(guān)注團(tuán)隊(duì)的最新技術(shù)進(jìn)展。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 格靈深瞳
    +關(guān)注

    關(guān)注

    1

    文章

    78

    瀏覽量

    5897
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3432

    瀏覽量

    4952

原文標(biāo)題:AI 如何學(xué)會(huì)“看圖說話”?多模態(tài)大模型 Glint-ME 讓圖文互搜更精準(zhǔn) | Glint Tech

文章出處:【微信號(hào):shentongzhineng,微信公眾號(hào):格靈深瞳】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    受邀參加百度世界2025大會(huì)

    11月13日,百度世界2025大會(huì)將在北京國家會(huì)議中心二期舉行。在分論壇環(huán)節(jié),靈感實(shí)驗(yàn)室負(fù)責(zé)人馮子勇、
    的頭像 發(fā)表于 11-14 15:47 ?342次閱讀

    邀您相約百度世界2025大會(huì)

    11月13日,百度世界2025大會(huì)將在北京國家會(huì)議中心二期舉行,主題為“效果涌現(xiàn) | AI In Action”。在公開課環(huán)節(jié),副總裁羅楷、研發(fā)副總裁閆梓禎將分別圍繞金融視覺演
    的頭像 發(fā)表于 11-12 16:57 ?652次閱讀

    與奧瑞德達(dá)成戰(zhàn)略合作

    近日,與奧瑞德光電股份有限公司達(dá)成戰(zhàn)略合作。雙方將重點(diǎn)圍繞大模型技術(shù)應(yīng)用及解決方案,整合各自優(yōu)勢(shì),向國內(nèi)外客戶提供高效能的智能算力服
    的頭像 發(fā)表于 10-11 17:32 ?1468次閱讀

    視覺基礎(chǔ)模型Glint-MVT的發(fā)展脈絡(luò)

    此前,8月28-30日,2025百度云智大會(huì)在北京舉辦。在算力平臺(tái)專題論壇上,技術(shù)副總裁、算法研究院院長馮子勇分享了《視覺基座:通向世界模型
    的頭像 發(fā)表于 09-05 17:13 ?1263次閱讀
    <b class='flag-5'>格</b><b class='flag-5'>靈</b><b class='flag-5'>深</b><b class='flag-5'>瞳</b>視覺基礎(chǔ)<b class='flag-5'>模型</b><b class='flag-5'>Glint</b>-MVT的發(fā)展脈絡(luò)

    加入海光產(chǎn)業(yè)生態(tài)合作組織

    近日,正式加入海光產(chǎn)業(yè)生態(tài)合作組織(簡稱“光合組織”),成為該組織成員單位。
    的頭像 發(fā)表于 08-25 16:10 ?552次閱讀

    智慧金融產(chǎn)品家族全新升級(jí)

    智能體時(shí)代,如何打造能用、好用、有持續(xù)成長性的智慧金融產(chǎn)品?這是探索 AI+金融深度融合的實(shí)踐方向。
    的頭像 發(fā)表于 08-19 17:53 ?1012次閱讀

    智慧體育產(chǎn)品全新升級(jí)

    智慧體育產(chǎn)品家族,近期迎來全新升級(jí)。
    的頭像 發(fā)表于 08-14 11:51 ?1164次閱讀

    視覺基礎(chǔ)模型Glint-MVT升級(jí)

    近日,靈感實(shí)驗(yàn)室和華為倫敦研究所發(fā)布最新版視覺基礎(chǔ)模型——Glint-MVT v1.5(
    的頭像 發(fā)表于 07-31 11:01 ?1172次閱讀
    <b class='flag-5'>格</b><b class='flag-5'>靈</b><b class='flag-5'>深</b><b class='flag-5'>瞳</b>視覺基礎(chǔ)<b class='flag-5'>模型</b><b class='flag-5'>Glint</b>-MVT升級(jí)

    與您相約WAIC 2025

    7月26-29日,2025世界人工智能大會(huì)(WAIC)將在上海世博中心和世博展覽館舉行。將在第一現(xiàn)場,聯(lián)合華為昇騰、百度、飛騰等生態(tài)合作伙伴,展示金融全系列整體解決方案、墨刃A
    的頭像 發(fā)表于 07-26 16:14 ?935次閱讀

    六篇論文入選ICCV 2025

    近日,國際頂級(jí)會(huì)議ICCV 2025(計(jì)算機(jī)視覺國際大會(huì))公布論文錄用結(jié)果,團(tuán)隊(duì)共有6篇論文入選。
    的頭像 發(fā)表于 07-07 18:23 ?1275次閱讀

    亮相AICon 2025全球人工智能開發(fā)與應(yīng)用大會(huì)

    此前,6月27-28日,由極客邦科技旗下InfoQ中國主辦的“AICon全球人工智能開發(fā)與應(yīng)用大會(huì)”在北京舉辦。作為行業(yè)領(lǐng)先的視覺AI公司,受邀參會(huì)。
    的頭像 發(fā)表于 07-05 16:15 ?1219次閱讀

    與百度智能云達(dá)成戰(zhàn)略合作,共筑AI算力新基建

    力底座,推動(dòng)政務(wù)、金融、公共安全等領(lǐng)域的智能化升級(jí)。 百度智能云泛科技業(yè)務(wù)部總經(jīng)理張瑋,銷售副總裁蘆斌代表雙方簽約,百度集團(tuán)執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖,
    的頭像 發(fā)表于 04-27 10:20 ?972次閱讀

    發(fā)布全國產(chǎn)超融合大模型一體機(jī)

    近日,人工智能領(lǐng)域的創(chuàng)新者宣布推出全國產(chǎn)化的超融合大模型一體機(jī),該產(chǎn)品在業(yè)界引起了廣泛關(guān)注。這款一體機(jī)不僅展現(xiàn)了
    的頭像 發(fā)表于 02-19 15:37 ?1061次閱讀

    ??低暟l(fā)布模態(tài)模型存儲(chǔ)系列產(chǎn)品

    模態(tài)模型為安防行業(yè)帶來重大技術(shù)革新,基于觀瀾大模型技術(shù)體系,??低晫⒋髤?shù)量、大樣本量的圖文
    的頭像 發(fā)表于 02-18 10:33 ?999次閱讀

    近期接連斬獲8項(xiàng)大獎(jiǎng)

    年關(guān)將至,喜事連連。憑借前沿的技術(shù)產(chǎn)品和行業(yè)領(lǐng)先的市場表現(xiàn),接連斬獲八項(xiàng)大獎(jiǎng),持續(xù)獲得來自政府、行業(yè)以及媒體等各界的肯定。
    的頭像 發(fā)表于 12-26 10:20 ?777次閱讀