伊人越南综合福利一区二区,白晶晶果冻传媒作品,欧美日韩第三页

在電商、安防等場景下，圖文互搜應(yīng)用廣泛。隨著以CLIP為代表的多模態(tài)表征方法相繼提出，過去單一模態(tài)搜索(文搜文、圖搜圖)被突破，模型可以同時(shí)理解文本、圖像、音頻乃至視頻，實(shí)現(xiàn)跨模態(tài)檢索。

與此同時(shí)，CLIP框架也存在多種技術(shù)局限性。10月25日，在由DataFun技術(shù)社區(qū)策劃的DACon數(shù)智大會(huì)分論壇上，格靈深瞳技術(shù)副總裁、靈感實(shí)驗(yàn)室負(fù)責(zé)人馮子勇博士分享專題演講：《多模態(tài)特征嵌入的數(shù)據(jù)生成和技術(shù)前沿》，介紹多模態(tài)基礎(chǔ)模型的應(yīng)用場景、技術(shù)短板，以及靈感團(tuán)隊(duì)的解題方法與技術(shù)細(xì)節(jié)——靈感圖文多模態(tài)表征模型系列(Glint-ME)。

“大模型前沿技術(shù)探索”分論壇現(xiàn)場

數(shù)據(jù)生成：豐富又優(yōu)質(zhì)的多模態(tài)表征數(shù)據(jù)

多模態(tài)模型訓(xùn)練需文本和圖片成對(duì)出現(xiàn)，但現(xiàn)有數(shù)據(jù)文本質(zhì)量不佳。為此，靈感團(tuán)隊(duì)提出了一個(gè)多樣化描述生成框架，將Transformer的有效并行訓(xùn)練與RNN的有效推理相結(jié)合，利用大型語言模型來精煉原始文本、合成字幕和檢測標(biāo)簽等信息，以產(chǎn)生語義豐富的描述文本。

為解決訓(xùn)練數(shù)據(jù)冗余的問題，靈感團(tuán)隊(duì)提出了一種簡單但有效的圖像語義平衡方法，能夠在保持卓越性能的同時(shí)，從LAION 400M數(shù)據(jù)集中移除43.7%的圖像-文本對(duì)。

為挖掘現(xiàn)實(shí)中大量未配對(duì)的多模態(tài)數(shù)據(jù)，例如圖文交織的文檔，靈感團(tuán)隊(duì)提出了一種有效且可擴(kuò)展的多模態(tài)交錯(cuò)文檔轉(zhuǎn)換范式，構(gòu)建了RealSyn數(shù)據(jù)集，可以將此類數(shù)據(jù)用于CLIP預(yù)訓(xùn)練。

團(tuán)隊(duì)首先建立了一套真實(shí)數(shù)據(jù)提取流程，能夠從圖文交錯(cuò)的文檔中提取高質(zhì)量的圖像和文本。在此基礎(chǔ)上，構(gòu)建了檢索增強(qiáng)生成框架，基于高質(zhì)量的文本和圖片庫，為每一張圖片匹配現(xiàn)實(shí)文本和合成文本。

RealSyn數(shù)據(jù)集包含15M、30M、100M三個(gè)規(guī)模。大量實(shí)驗(yàn)證明：RealSyn具有良好的數(shù)據(jù)縮放和模型縮放能力，相關(guān)數(shù)據(jù)、代碼和模型均已開源：

技術(shù)報(bào)告：

https://arxiv.org/abs/2502.12513

代碼：

https://github.com/deepglint/RealSyn

項(xiàng)目主頁：

https://garygutc.github.io/RealSyn/

數(shù)據(jù)集：

https://huggingface.co/datasets/Kaichengalex/RealSyn100M

多模態(tài)特征嵌入模型：更強(qiáng)大的跨模態(tài)表達(dá)能力

盡管最近的多模態(tài)大型語言模型(MLLMs)在通用視覺-語言理解方面取得了顯著進(jìn)展，但在學(xué)習(xí)可遷移的多模態(tài)表征方面，潛力尚未充分發(fā)揮。

為此，靈感團(tuán)隊(duì)提出了一個(gè)面向MLLMs的兩階段訓(xùn)練框架UniME(Universal Multimodal Embedding，通用多模態(tài)嵌入)，并優(yōu)化迭代至V2版本——聚焦如何借助MLLMs強(qiáng)大的理解能力來助力統(tǒng)一多模態(tài)表征學(xué)習(xí)。

經(jīng)過MMEB基準(zhǔn)測試和在多個(gè)檢索任務(wù)(包括長短文本跨模態(tài)檢索和組合檢索)上的大量實(shí)驗(yàn)，結(jié)果表明UniME-V2在多項(xiàng)任務(wù)中均實(shí)現(xiàn)了穩(wěn)定的性能提升，展現(xiàn)了卓越的判別能力和組合理解能力。

UniME-V2在MMEB Benchmark的表現(xiàn)

UniME-V2在長短文本跨模態(tài)檢索和組合檢索上優(yōu)于UniME-V1和其他模型

UniME系列論文、代碼、權(quán)重均已開源：

UniME-V1

技術(shù)報(bào)告：

https://arxiv.org/abs/2504.17432

代碼：

https://github.com/deepglint/UniME

模型：

https://huggingface.co/DeepGlint-AI/UniME-LLaVA-OneVision-7B

項(xiàng)目主頁：

https://garygutc.github.io/UniME/

UniME-V2

技術(shù)報(bào)告：

https://arxiv.org/abs/2504.17432

代碼：

https://github.com/GaryGuTC/UniME-v2

模型：

https://huggingface.co/collections/TianchengGu/unime-v2-68ef708ac48066353b4a0806

項(xiàng)目主頁：

https://garygutc.github.io/UniME-v2/

近期，靈感實(shí)驗(yàn)室聯(lián)合LMMs-Lab發(fā)布了全流程開源的多模態(tài)大模型LLaVA-OneVision-1.5，復(fù)現(xiàn)路徑清晰，8B模型預(yù)訓(xùn)練只需4天、1.6萬美元。

LLaVA-OneVision-1.5

技術(shù)報(bào)告：

https://arxiv.org/abs/2509.23661

代碼：

https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5

模型：

https://huggingface.co/lmms-lab/LLaVA-OneVision-1.5-8B-Instruct

Demo：

https://huggingface.co/spaces/lmms-lab/LLaVA-OneVision-1.5

數(shù)據(jù)集：

Pretrain Data：https://huggingface.co/datasets/lmms-lab/LLaVA-One-Vision-1.5-Mid-Training-85M

Instruct Data：https://huggingface.co/datasets/lmms-lab/LLaVA-OneVision-1.5-Insturct-Data

未來，靈感實(shí)驗(yàn)室將持續(xù)聚焦視覺及多模態(tài)特征表達(dá)與應(yīng)用，推動(dòng)多模態(tài)技術(shù)在多元化應(yīng)用場景的落地與創(chuàng)新。歡迎關(guān)注團(tuán)隊(duì)的最新技術(shù)進(jìn)展。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

格靈深瞳

格靈深瞳

+關(guān)注

關(guān)注
1

文章
78

瀏覽量
5897
大模型

大模型

+關(guān)注

關(guān)注
2

文章
3432

瀏覽量
4952

原文標(biāo)題：AI 如何學(xué)會(huì)“看圖說話”？多模態(tài)大模型 Glint-ME 讓圖文互搜更精準(zhǔn) | Glint Tech

文章出處：【微信號(hào)：shentongzhineng，微信公眾號(hào)：格靈深瞳】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

格靈深瞳多模態(tài)大模型Glint-ME讓圖文互搜更精準(zhǔn)

評(píng)論