chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

VisCPM:邁向多語(yǔ)言多模態(tài)大模型時(shí)代

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來(lái)源:未知 ? 2023-07-10 10:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著 GPT-4 和 Stable Diffusion 等模型多模態(tài)能力的突飛猛進(jìn),多模態(tài)大模型已經(jīng)成為大模型邁向通用人工智能(AGI)目標(biāo)的下一個(gè)前沿焦點(diǎn)??傮w而言,面向圖像和文本的多模態(tài)生成能力可以大致分為兩類:

1. 在圖生文(image-to-text generation)方面,以 GPT-4 為代表的多模態(tài)大模型,可以面向圖像進(jìn)行開(kāi)放域?qū)υ捄蜕疃韧评恚?/span>

2. 在文生圖(text-to-image generation)方面,以 Stable Diffusion 為代表的多模態(tài)模型,可以根據(jù)文本生成圖像內(nèi)容。由這些多模態(tài)模型掀起的 AIGC 浪潮,廣泛而深刻地改變著學(xué)術(shù)界和工業(yè)界的思想實(shí)踐。

然而,目前多模態(tài)大模型的成功很大程度上局限于英文世界,而中文等其他非英語(yǔ)語(yǔ)言的多模態(tài)能力明顯落后。這是因?yàn)橄啾扔谟⑽氖澜?,中文等其他非英語(yǔ)語(yǔ)言的多模態(tài)數(shù)據(jù)嚴(yán)重稀缺,難以滿足多模態(tài)大模型對(duì)大規(guī)模高質(zhì)量圖文對(duì)數(shù)據(jù)的需求。這些問(wèn)題使得多語(yǔ)言多模態(tài)大模型的構(gòu)建極具挑戰(zhàn)性。

為了解決上述挑戰(zhàn),我們提出使用高資源語(yǔ)言(如英語(yǔ))作為橋接圖像信號(hào)和低資源語(yǔ)言(如中文)的橋梁,實(shí)現(xiàn)多語(yǔ)言多模態(tài)大模型能力的快速泛化,從而緩解對(duì)低資源語(yǔ)言下模態(tài)對(duì)齊數(shù)據(jù)(圖文對(duì)數(shù)據(jù))的依賴。

通過(guò)類比人類的學(xué)習(xí)過(guò)程,我們可以直觀地理解該方法:人類學(xué)習(xí)者可以僅通過(guò)母語(yǔ)與視覺(jué)信號(hào)的對(duì)應(yīng)關(guān)系,以及母語(yǔ)與不同語(yǔ)言之間的對(duì)應(yīng)關(guān)系,自然地建立起不同語(yǔ)言下對(duì)視覺(jué)信號(hào)的統(tǒng)一認(rèn)知。這是由于不同的自然語(yǔ)言符號(hào)系統(tǒng),很大程度上都是以描述相同的客觀世界為驅(qū)動(dòng)力演化發(fā)展而來(lái)的,這為多語(yǔ)言多模態(tài)能力的快速泛化提供了基礎(chǔ)。

為了驗(yàn)證上述方法,我們以中英雙語(yǔ)的多模態(tài)大模型為例,構(gòu)建了 VisCPM 系列模型,建立中英雙語(yǔ)的多模態(tài)對(duì)話能力(VisCPM-Chat 模型)和文到圖生成能力(VisCPM-Paint 模型)。

多語(yǔ)言對(duì)齊方面,我們選用百億參數(shù)量的 CPM-Bee 10B 作為基底語(yǔ)言模型。該模型優(yōu)秀的中英雙語(yǔ)能力,提供了多語(yǔ)言對(duì)齊的基礎(chǔ)。在多模態(tài)對(duì)齊方面,我們?yōu)镃PM-Bee分別融合視覺(jué)編碼器(Q-Former)和視覺(jué)解碼器(Diffusion-UNet)以支持視覺(jué)信號(hào)的輸入和輸出。得益于 CPM-Bee 基座優(yōu)秀的雙語(yǔ)能力,VisCPM 可以僅通過(guò)英文多模態(tài)數(shù)據(jù)預(yù)訓(xùn)練,泛化實(shí)現(xiàn)優(yōu)秀的中文多模態(tài)能力。

c50d57a8-1ec4-11ee-962d-dac502259ad0.png

中英雙語(yǔ)多模態(tài)對(duì)話模型VisCPM-Chat

VisCPM-Chat 模型使用 Q-Former 作為視覺(jué)編碼器,使用 CPM-Bee(10B)作為語(yǔ)言基座模型,并通過(guò)語(yǔ)言建模訓(xùn)練目標(biāo)融合視覺(jué)和語(yǔ)言模型。模型訓(xùn)練包括預(yù)訓(xùn)練和指令精調(diào)兩階段:

  • 預(yù)訓(xùn)練:我們使用約 100M 高質(zhì)量英文圖文對(duì)數(shù)據(jù)對(duì) VisCPM-Chat 進(jìn)行了預(yù)訓(xùn)練,數(shù)據(jù)包括 CC3M、CC12M、COCO、Visual Genome、LAION 等。在預(yù)訓(xùn)練階段,語(yǔ)言模型參數(shù)保持固定,僅更新Q-Former部分參數(shù),以支持大規(guī)模視覺(jué)-語(yǔ)言表示的高效對(duì)齊。

  • 指令精調(diào):我們采用 LLaVA-150K 英文指令精調(diào)數(shù)據(jù),并混合相應(yīng)翻譯后的中文數(shù)據(jù)對(duì)模型進(jìn)行指令精調(diào),以對(duì)齊模型多模態(tài)基礎(chǔ)能力和用戶使用意圖。在指令精調(diào)階段,我們更新全部模型參數(shù),以提升指令精調(diào)數(shù)據(jù)的利用效率。有趣的是,我們發(fā)現(xiàn)即使僅采用英文指令數(shù)據(jù)進(jìn)行指令精調(diào),模型也可以理解中文問(wèn)題,但僅能用英文回答。這表明模型的多語(yǔ)言多模態(tài)能力已經(jīng)得到良好的泛化。在指令精調(diào)階段進(jìn)一步加入少量中文翻譯數(shù)據(jù),可以將模型回復(fù)語(yǔ)言和用戶問(wèn)題語(yǔ)言對(duì)齊。

我們?cè)?LLaVA 標(biāo)準(zhǔn)英文測(cè)試集和翻譯的中文測(cè)試集對(duì)模型進(jìn)行了評(píng)測(cè),該評(píng)測(cè)基準(zhǔn)考察模型在開(kāi)放域?qū)υ?、圖像細(xì)節(jié)描述、復(fù)雜推理方面的表現(xiàn),并使用 GPT-4 進(jìn)行打分。可以觀察到,在不使用任何中文圖文對(duì)預(yù)訓(xùn)練數(shù)據(jù)的情況下,VisCPM-Chat 在中文多模態(tài)能力方面取得了最佳的平均性能,在通用域?qū)υ捄蛷?fù)雜推理表現(xiàn)出色,同時(shí)也表現(xiàn)出了不錯(cuò)的英文多模態(tài)能力。

在上述平衡的中英雙語(yǔ)能力(VisCPM-Chat-balance)基礎(chǔ)上,我們?cè)陬A(yù)訓(xùn)練階段額外加入 20M 清洗后的原生中文圖文對(duì)數(shù)據(jù)和 120M 翻譯到中文的圖文對(duì)數(shù)據(jù),可以實(shí)現(xiàn)中文多模態(tài)能力的進(jìn)一步強(qiáng)化(VisCPM-Chat-zhplus)。

c53a43b2-1ec4-11ee-962d-dac502259ad0.png

VisCPM-Chat 表現(xiàn)出令人印象深刻的圖像理解能力,并能夠在對(duì)話中運(yùn)用世界知識(shí)和常識(shí)知識(shí)。例如在下圖中,VisCPM 能夠識(shí)別染色的地圖和人像,并正確理解出染色代表的不同含義。除此之外,VisCPM-Chat 還具有不錯(cuò)的中文特色能力,比如能用李白的詩(shī)描繪黃河的景象并作解讀,在面對(duì)中秋月夜時(shí)還能用蘇軾的《水調(diào)歌頭》借景抒情。

c5b3070c-1ec4-11ee-962d-dac502259ad0.png

中英雙語(yǔ)文生圖模型VisCPM-Paint

VisCPM-Paint 使用 CPM-Bee(10B)作為文本編碼器,使用 UNet 作為圖像解碼器,并通過(guò)擴(kuò)散模型訓(xùn)練目標(biāo)融合語(yǔ)言和視覺(jué)模型。在訓(xùn)練過(guò)程中,語(yǔ)言模型參數(shù)始終保持固定。我們使用 Stable Diffusion 2.1 的 UNet 參數(shù)初始化視覺(jué)解碼器,并通過(guò)逐步解凍其中關(guān)鍵的橋接參數(shù)將其與語(yǔ)言模型融合。該模型在 LAION 2B 英文圖文對(duì)數(shù)據(jù)上進(jìn)行了訓(xùn)練。

我們?cè)跇?biāo)準(zhǔn)圖像生成測(cè)試集 MSCOCO 上采樣了 3 萬(wàn)張圖片,計(jì)算了常用評(píng)估圖像生成指標(biāo) FID(Fréchet Inception Distance)評(píng)估生成圖片的質(zhì)量。與 VisCPM 類似,我們發(fā)現(xiàn)得益于 CPM-Bee 的雙語(yǔ)能力,VisCPM-Paint 可以僅通過(guò)英文圖文對(duì)訓(xùn)練,泛化實(shí)現(xiàn)良好的中文文到圖生成能力,達(dá)到中文開(kāi)源模型的最佳效果。在中英平衡能力(VisCPM-Paint-balance)的基礎(chǔ)上,通過(guò)進(jìn)一步加入 20M 清洗后的原生中文圖文對(duì)數(shù)據(jù),以及 120M 翻譯到中文的圖文對(duì)數(shù)據(jù),模型的中文文到圖生成能力可以獲得進(jìn)一步提升(VisCPM-Paint-zhplus)。

c5dc28e4-1ec4-11ee-962d-dac502259ad0.png

VisCPM-Paint 模型中分別輸入“海上生明月,天涯共此時(shí),唯美風(fēng)格,抽象風(fēng)格”和“人閑桂花落,月靜春山空”兩條 prompts,生成了以下兩張圖片??梢钥闯?,VisCPM-Paint 對(duì)中國(guó)特色意向也有較好的把握能力。

為了推動(dòng)多模態(tài)大模型開(kāi)源社區(qū)和相關(guān)研究領(lǐng)域的發(fā)展,我們將 VisCPM 系列的所有模型免費(fèi)開(kāi)源(https://github.com/OpenBMB/VisCPM),歡迎個(gè)人和研究用途自由使用。未來(lái)我們也會(huì)將 VisCPM 整合到 huggingface代碼框架中,以及陸續(xù)完善安全模型、 支持快速網(wǎng)頁(yè)部署、 支持模型量化功能、支持模型微調(diào)等功能,歡迎持續(xù)關(guān)注。

· ·


原文標(biāo)題:VisCPM:邁向多語(yǔ)言多模態(tài)大模型時(shí)代

文章出處:【微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:VisCPM:邁向多語(yǔ)言多模態(tài)大模型時(shí)代

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    京東多語(yǔ)言質(zhì)量解決方案

    一、業(yè)界多語(yǔ)言面臨的通用挑戰(zhàn)是什么 做這個(gè)事之前,我們先看看業(yè)界做了什么。 ??阿里巴巴全球化測(cè)試技術(shù)介紹? ??螞蟻全球化無(wú)線端質(zhì)量解決方案? ??談?wù)?b class='flag-5'>多語(yǔ)言測(cè)試? 總結(jié)下來(lái),需要面臨3個(gè)通用
    的頭像 發(fā)表于 01-13 16:18 ?773次閱讀
    京東<b class='flag-5'>多語(yǔ)言</b>質(zhì)量解決方案

    商湯科技正式發(fā)布并開(kāi)源全新模態(tài)模型架構(gòu)NEO

    商湯科技正式發(fā)布并開(kāi)源了與南洋理工大學(xué)S-Lab合作研發(fā)的全新模態(tài)模型架構(gòu) —— NEO,為日日新SenseNova 模態(tài)
    的頭像 發(fā)表于 12-08 11:19 ?919次閱讀
    商湯科技正式發(fā)布并開(kāi)源全新<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>模型</b>架構(gòu)NEO

    亞馬遜云科技上線Amazon Nova模態(tài)嵌入模型

    Embeddings模態(tài)嵌入模型現(xiàn)已在Amazon Bedrock上線,這是一款專為Agentic RAG與語(yǔ)義搜索應(yīng)用打造的頂尖模態(tài)
    的頭像 發(fā)表于 10-29 17:15 ?195次閱讀
    亞馬遜云科技上線Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>嵌入<b class='flag-5'>模型</b>

    阿里巴巴國(guó)際站關(guān)鍵字搜索 API 實(shí)戰(zhàn):3 步搞定多語(yǔ)言適配 + 限流破局,詢盤量提升 40%

    跨境電商API開(kāi)發(fā)常陷合規(guī)、多語(yǔ)言、限流等坑。本文詳解從國(guó)際合規(guī)(GDPR/CCPA)到參數(shù)優(yōu)化、數(shù)據(jù)結(jié)構(gòu)化及區(qū)域化搜索的全鏈路方案,附Python代碼模板與緩存重試架構(gòu),助力提升調(diào)用成功率至99%+,精準(zhǔn)詢盤增長(zhǎng)42%。
    的頭像 發(fā)表于 10-20 14:44 ?1485次閱讀

    速賣通全球運(yùn)營(yíng)利器:商品詳情接口多語(yǔ)言 + 合規(guī) + 物流適配技術(shù)全解析

    速賣通全球化適配是跨境成功關(guān)鍵!本文詳解2025最新接口方案,涵蓋多語(yǔ)言智能翻譯、合規(guī)自動(dòng)校驗(yàn)、物流精準(zhǔn)推薦與性能優(yōu)化四大模塊,助力商家提升轉(zhuǎn)化率30%+,降低風(fēng)險(xiǎn),提效80%。附實(shí)操代碼與新手三步走策略,適合所有想出海的賣家。
    的頭像 發(fā)表于 10-16 09:30 ?449次閱讀
    速賣通全球運(yùn)營(yíng)利器:商品詳情接口<b class='flag-5'>多語(yǔ)言</b> + 合規(guī) + 物流適配技術(shù)全解析

    米爾RK3576部署端側(cè)模態(tài)輪對(duì)話,6TOPS算力驅(qū)動(dòng)30億參數(shù)LLM

    細(xì)化需求,系統(tǒng)需實(shí)時(shí)調(diào)整響應(yīng)策略 1.2 輪對(duì)話系統(tǒng)鳥瞰:三顆“核心”協(xié)同驅(qū)動(dòng)RK3576 模態(tài)交互對(duì)話方案基于 RKLLM 的核心運(yùn)作,依賴于圖像視覺(jué)編碼器、大語(yǔ)言
    發(fā)表于 09-05 17:25

    淺析模態(tài)標(biāo)注對(duì)大模型應(yīng)用落地的重要性與標(biāo)注實(shí)例

    ?在人工智能邁向AGI通用智能的關(guān)鍵道路上,大模型正從單一的文本理解者,演進(jìn)為能同時(shí)看、聽(tīng)、讀、想的“多面手”。驅(qū)動(dòng)這一進(jìn)化的核心燃料,正是高質(zhì)量的模態(tài)數(shù)據(jù),而將原始數(shù)據(jù)轉(zhuǎn)化為“機(jī)器
    的頭像 發(fā)表于 09-05 13:49 ?1567次閱讀

    愛(ài)芯通元NPU適配Qwen2.5-VL-3B視覺(jué)模態(tài)模型

    熟悉愛(ài)芯通元NPU的網(wǎng)友很清楚,從去年開(kāi)始我們?cè)诙藗?cè)模態(tài)模型適配上一直處于主動(dòng)緊跟的節(jié)奏。先后適配了國(guó)內(nèi)最早開(kāi)源的模態(tài)大模MiniCP
    的頭像 發(fā)表于 04-21 10:56 ?2743次閱讀
    愛(ài)芯通元NPU適配Qwen2.5-VL-3B視覺(jué)<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>

    基于MindSpeed MM玩轉(zhuǎn)Qwen2.5VL模態(tài)理解模型

    模態(tài)理解模型是讓AI像人類一樣,通過(guò)整合多維度信息(如視覺(jué)、語(yǔ)言、聽(tīng)覺(jué)等),理解數(shù)據(jù)背后的語(yǔ)義、情感、邏輯或場(chǎng)景,從而完成推理、決策等任務(wù)。
    的頭像 發(fā)表于 04-18 09:30 ?2855次閱讀
    基于MindSpeed MM玩轉(zhuǎn)Qwen2.5VL<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>理解<b class='flag-5'>模型</b>

    移遠(yuǎn)通信智能模組全面接入模態(tài)AI大模型,重塑智能交互新體驗(yàn)

    全系智能模組產(chǎn)品已全面接入火山引擎豆包VLM(視覺(jué)語(yǔ)言模態(tài)AI大模型。這一突破性進(jìn)展表明,搭載移遠(yuǎn)任意智能模組的終端設(shè)備,均可無(wú)縫融合
    發(fā)表于 03-21 14:12 ?478次閱讀
    移遠(yuǎn)通信智能模組全面接入<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大<b class='flag-5'>模型</b>,重塑智能交互新體驗(yàn)

    移遠(yuǎn)通信智能模組全面接入模態(tài)AI大模型,重塑智能交互新體驗(yàn)

    智能模組產(chǎn)品已全面接入火山引擎豆包VLM(視覺(jué)語(yǔ)言模態(tài)AI大模型。這一突破性進(jìn)展表明,搭載移遠(yuǎn)任意智能模組的終端設(shè)備,均可無(wú)縫融合
    的頭像 發(fā)表于 03-20 19:03 ?726次閱讀
    移遠(yuǎn)通信智能模組全面接入<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大<b class='flag-5'>模型</b>,重塑智能交互新體驗(yàn)

    商湯“日日新”融合大模型登頂大語(yǔ)言模態(tài)雙榜單

    據(jù)弗若斯特沙利文(Frost & Sullivan, 簡(jiǎn)稱“沙利文”)聯(lián)合頭豹研究院發(fā)布的《2025年中國(guó)大模型年度評(píng)測(cè)》結(jié)果顯示:在語(yǔ)言模態(tài)核心能力測(cè)評(píng)中,商湯“日日新”融合大
    的頭像 發(fā)表于 03-18 10:35 ?1052次閱讀

    ?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析

    視覺(jué)語(yǔ)言模型(Visual Language Model, VLM)是一種結(jié)合視覺(jué)(圖像/視頻)和語(yǔ)言(文本)處理能力的模態(tài)人工智能
    的頭像 發(fā)表于 03-17 15:32 ?8173次閱讀
    ?VLM(視覺(jué)<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>)?詳細(xì)解析

    ??低暟l(fā)布模態(tài)模型文搜存儲(chǔ)系列產(chǎn)品

    模態(tài)模型為安防行業(yè)帶來(lái)重大技術(shù)革新,基于觀瀾大模型技術(shù)體系,??低晫⒋髤?shù)量、大樣本量的圖文模態(tài)
    的頭像 發(fā)表于 02-18 10:33 ?1162次閱讀

    一文詳解視覺(jué)語(yǔ)言模型

    視覺(jué)語(yǔ)言模型(VLM)是一種模態(tài)、生成式 AI 模型,能夠理解和處理視頻、圖像和文本。
    的頭像 發(fā)表于 02-12 11:13 ?3576次閱讀
    一文詳解視覺(jué)<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>