Hugging Face推出最小AI視覺語言模型

Hugging Face平臺于1月23日發(fā)布博文，推出了兩款令人矚目的輕量級AI模型——SmolVLM-256M-Instruct和SmolVLM-500M-Instruct。

其中，SmolVLM-256M-Instruct僅有2.56億參數(shù)，是有史以來發(fā)布的最小視覺語言模型，可在內(nèi)存低于1GB的PC上運行并提供卓越性能。SmolVLM-500M-Instruct有5億參數(shù)，主要針對硬件資源限制，幫助開發(fā)者應對大規(guī)模數(shù)據(jù)分析挑戰(zhàn)。

這兩款模型具備先進的多模態(tài)能力，可執(zhí)行圖像描述、短視頻分析以及回答關于PDF或科學圖表的問題等任務。其開發(fā)依賴于The Cauldron和Docmatix兩個專有數(shù)據(jù)集。The Cauldron包含50個高質(zhì)量圖像和文本數(shù)據(jù)集，側重于多模態(tài)學習；Docmatix專為文檔理解定制，將掃描文件與詳細標題配對以增強理解。

此外，模型采用了更小的視覺編碼器SigLIP base patch-16/512，通過優(yōu)化圖像標記處理方式，減少了冗余，還將圖像編碼速率提升至每個標記4096像素，相比早期版本的每標記1820像素有了顯著改進。

Hugging Face此次推出的最小AI視覺語言模型，為AI在低資源設備上的應用開辟了新的道路。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

人工智能

人工智能

+關注

關注
1811

文章
49497

瀏覽量
258189
語言模型

語言模型

+關注

關注
0

文章
566

瀏覽量
11179
AI視覺

AI視覺

+關注

關注
0

文章
98

瀏覽量
4904

麥辣雞腿堡
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 麒麟9000s相當于驍龍多少和驍龍多少處理器相當
Hot 華為麒麟9000s是多少納米的麒麟9000s什么檔次

New BD9B333GWZ同步整流降壓型DC/DC轉換器文檔介紹
New BM2P061MF-Z DC/DC轉換器IC文檔介紹

精選推薦
更多

文章

資料

帖子

集成電路制造中薄膜刻蝕的概念和工藝流程

中科院半導體所
15小時前

696 閱讀

破壁者萬里眼，點亮示波器的東方之眼

腦極體
15小時前

561 閱讀

詳解芯片制造中的可測性設計

中科院半導體所
15小時前

677 閱讀

如何為電子設計選擇合適的放大器

安森美
15小時前

676 閱讀

安森美如何推動區(qū)域控制架構進化

安森美
15小時前

670 閱讀

諾基亞3120電路圖

河神大人
2048

10積分

202下載

marketpulse網(wǎng)絡應用

李偉
4.03 MB

2積分

2下載

Sandboxie基于沙盒的隔離軟件

云中云
3.76 MB

免費

0下載

FTXUI C++功能性終端用戶界面

從未擁有
1.14 MB

2積分

1下載

GPUImageFiltersCamera模仿Filckr照相功能

李永每
0.76 MB

免費

0下載

【道生物聯(lián)TKB-623評估板試用】比友商更好用的Lora模組測試

mameng
1天前

436 閱讀

二級差分電路的電阻怎么配置？

大忽悠啊
1天前

678 閱讀

使用 LinkBoy 將程序導出為 C 語言代碼并燒錄至 Arduino ESP32 開發(fā)板

jf_76693375
1天前

543 閱讀

老師們幫看看這個電阻阻值是多大的？

jf_38961907
1天前

670 閱讀

飛凌嵌入式ElfBoard-Vim編輯器之GCC的基本使用

jf_13411809
1天前

682 閱讀

推薦專欄
更多

企業(yè)產(chǎn)品

資料

方案
更多

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

Hugging Face推出最小AI視覺語言模型

評論