據(jù)外媒,知名機(jī)器學(xué)習(xí)公司OpenAI近日推出兩套多模態(tài)人工智能系統(tǒng)模型DALL-E和CLIP,DALL-E可以基于文本直接生成圖像,CLIP能夠完成圖像與文本類別的匹配。DALL-E可以將以自然語言形式表達(dá)的大量概念轉(zhuǎn)換為恰當(dāng)?shù)膱D像,并使用了GPT-3 同樣的方法,只不過DALL-E將其應(yīng)用于文本-圖像對。
另一個神經(jīng)網(wǎng)絡(luò)CLIP能夠執(zhí)行一系列視覺識別任務(wù)。給出一組以語言形式表述的類別,CLIP能夠立即將一張圖像與其中某個類別進(jìn)行匹配,而且它不像標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)那樣需要針對這些類別的特定數(shù)據(jù)進(jìn)行微調(diào)。在ImageNet基準(zhǔn)上,CLIP的性能超過ResNet-50,在識別不常見圖像任務(wù)中的性能遠(yuǎn)超ResNet。
雖然CLIP在識別常見對象時(shí)往往表現(xiàn)良好,但在計(jì)算圖像中對象數(shù)量等更抽象或更系統(tǒng)的任務(wù),以及預(yù)測照片中最靠近車輛間的距離等更復(fù)雜任務(wù)上的表現(xiàn)不佳。在這兩項(xiàng)任務(wù)上,zero-shot CLIP的效果也只比隨機(jī)猜測好一點(diǎn)。
責(zé)任編輯:YYX
-
人工智能
+關(guān)注
關(guān)注
1807文章
49028瀏覽量
249551 -
OpenAI
+關(guān)注
關(guān)注
9文章
1210瀏覽量
8922
發(fā)布評論請先 登錄
最新人工智能硬件培訓(xùn)AI 基礎(chǔ)入門學(xué)習(xí)課程參考2025版(大模型篇)
多模態(tài)感知+豆包大模型!家居端側(cè)智能升級

商湯日日新SenseNova融合模態(tài)大模型 國內(nèi)首家獲得最高評級的大模型
愛芯通元NPU適配Qwen2.5-VL-3B視覺多模態(tài)大模型

評論