谷歌提出FlexiViT:適用于所有Patch大小的模型
一句話總結(jié)就是,ViT 是一種通過將圖像切割成一個(gè)個(gè)小方塊(patch)將圖像轉(zhuǎn)換為序列從而輸入到T....
一種新的輕量級(jí)視覺Transformer
既然都叫 EfficientFormerV2,那必然是在上一版的基礎(chǔ)上改進(jìn)了,如圖(a)所示。沒什么....
基于先驗(yàn)指導(dǎo)的對(duì)抗樣本初始化方法提升FAT效果
這種現(xiàn)象最先由Wong等人發(fā)現(xiàn),隨后他們又發(fā)現(xiàn)使用FGSM生成對(duì)抗樣本時(shí)使用隨機(jī)初始化可以延緩災(zāi)難性....
PEMN:參數(shù)集約型掩碼網(wǎng)絡(luò)
來自美國東北大學(xué)和羅切斯特理工的研究者提出參數(shù)集約型掩碼網(wǎng)絡(luò)(Parameter-Efficient....
復(fù)旦&微軟提出?OmniVL:首個(gè)統(tǒng)一圖像、視頻、文本的基礎(chǔ)預(yù)訓(xùn)練模型
根據(jù)輸入數(shù)據(jù)和目標(biāo)下游任務(wù)的不同,現(xiàn)有的VLP方法可以大致分為兩類:圖像-文本預(yù)訓(xùn)練和視頻-文本預(yù)訓(xùn)....
基于視覺transformer的高效時(shí)空特征學(xué)習(xí)算法
視覺Transofrmer通常將圖像分割為不重疊的塊(patch),patch之間通過自注意力機(jī)制(....
無殘差連接或歸一化層,也能成功訓(xùn)練深度transformer
殘差架構(gòu)是最流行和成功的,最初是在卷積神經(jīng)網(wǎng)絡(luò)(CNN)的背景下開發(fā)的,后來自注意力網(wǎng)絡(luò)中產(chǎn)生了無處....
全球首個(gè)面向遙感任務(wù)設(shè)計(jì)的億級(jí)視覺Transformer大模型
簡(jiǎn)單來說,為了更好地應(yīng)對(duì)遙感圖像所具有的大尺寸特性以及圖像中的目標(biāo)物體的朝向任意性,我們提出了一種新....
一種基于毒性樣本敏感性的有效后門防御!
訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)(DNNs)往往需要大量的訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)有時(shí)可能由不可信的第三方來源所提供。這些....
基于視頻語言模型LiteVL的無參的特征池化方法
我們提出了LiteVL,這是一種視頻語言模型,它無需大量的視頻語言預(yù)訓(xùn)練或目標(biāo)檢測(cè)器。LiteVL從....
LSTM之父再次炮轟LeCun:你那5點(diǎn)
1. 通過神經(jīng)網(wǎng)絡(luò)(NN)自動(dòng)生成標(biāo)注的「自監(jiān)督學(xué)習(xí)」:至少可以追溯到我1990-91年的工作。 ....
用于視覺識(shí)別的Transformer風(fēng)格的ConvNet
需要注意的是:上式中表示Hadamard乘積。上述卷積調(diào)制模塊使得每個(gè)位置的元素與其近鄰相關(guān),而通道....
如何使用DDPM提取特征并研究這些特征可能捕獲的語義信息
對(duì)于幾個(gè)預(yù)先訓(xùn)練的擴(kuò)散模型,作者研究了網(wǎng)絡(luò)中執(zhí)行逆擴(kuò)散過程馬爾可夫步驟的中間激活。
阿里達(dá)摩院提出MogFace:人臉檢測(cè)新工作
為每個(gè)anchor點(diǎn)定義cls和reg目標(biāo)是訓(xùn)練檢測(cè)器的必要過程,在人臉檢測(cè)中這個(gè)過程稱之為標(biāo)簽分配....
NVIDIA提出Magic3D:高分辨率文本到3D內(nèi)容創(chuàng)建
Magic3D 還可以執(zhí)行基于提示的 3D 網(wǎng)格編輯:給定低分辨率 3D 模型和基本提示,可以更改文....
術(shù)開發(fā)一種硬件高效的RepGhost模塊
特征復(fù)用技術(shù)是指:通過簡(jiǎn)單地連接來自不同層的已有的一些特征圖,來額外獲得一些其他的特征
港大&騰訊提出DiffusionDet:第一個(gè)用于目標(biāo)檢測(cè)的擴(kuò)散模型
近日,來自香港大學(xué)的羅平團(tuán)隊(duì)、騰訊 AI Lab 的研究者聯(lián)合提出一種新框架 DiffusionDe....
基于可變形卷積的大規(guī)模視覺基礎(chǔ)模型
擴(kuò)大模型的規(guī)模是提高特征表示質(zhì)量的重要策略,在計(jì)算機(jī)視覺領(lǐng)域,模型參數(shù)量的擴(kuò)大不僅能夠有效加強(qiáng)深度模....
IPMT:用于小樣本語義分割的中間原型挖掘Transformer
目前在計(jì)算機(jī)視覺取得的巨大進(jìn)展在很大程度上依賴于大量帶標(biāo)注的數(shù)據(jù),然而收集這些數(shù)據(jù)是一項(xiàng)耗時(shí)耗力的工....
基于激光雷達(dá)的全稀疏3D物體檢測(cè)器
這樣做實(shí)質(zhì)上是把instance當(dāng)成了“voxel”來處理,因?yàn)閕nstance和voxel本質(zhì)上都....
基于Transformer架構(gòu)的文檔圖像自監(jiān)督預(yù)訓(xùn)練技術(shù)
本文簡(jiǎn)要介紹ACM MM 2022錄用論文“DiT: Self-supervised Pre-tra....
一種「?jìng)€(gè)性化」的文本到圖像擴(kuò)散模型 DreamBooth
一些大型文本到圖像模型基于用自然語言編寫的文本提示(prompt)實(shí)現(xiàn)了高質(zhì)量和多樣化的圖像合成。這....
三行代碼完成AI模型的部署!
為了解決AI部署落地難題,我們發(fā)起了FastDeploy項(xiàng)目。FastDeploy針對(duì)產(chǎn)業(yè)落地場(chǎng)景中....
首個(gè)無監(jiān)督3D點(diǎn)云物體實(shí)例分割算法
本文旨在尋求一種無監(jiān)督的3D物體分割方法。我們發(fā)現(xiàn),運(yùn)動(dòng)信息有望幫助我們實(shí)現(xiàn)這一目標(biāo)。如下圖1所示,....
間隔校準(zhǔn)算法Margin Calibration來了!
如下圖所示,我們憑經(jīng)驗(yàn)發(fā)現(xiàn)邊距和預(yù)測(cè)分?jǐn)?shù)與每個(gè)類的基數(shù)相關(guān)(一個(gè)類的基數(shù)即該類別擁有數(shù)據(jù)的數(shù)量)。具....
無需權(quán)重更新、微調(diào),Transformer在試錯(cuò)中自主改進(jìn)!
最近的工作表明,transformers 還可以通過將離線強(qiáng)化學(xué)習(xí)(RL)視作順序預(yù)測(cè)問題,進(jìn)而從離....
基于Transformer與覆蓋注意力機(jī)制建模的手寫數(shù)學(xué)公式識(shí)別
手寫數(shù)學(xué)公式識(shí)別是將包含數(shù)學(xué)表達(dá)式的圖像轉(zhuǎn)換為結(jié)構(gòu)表達(dá)式,例如LaTeX數(shù)學(xué)表達(dá)式或符號(hào)布局樹的過程....
深度模型Adan優(yōu)化器如何完成ViT的訓(xùn)練
自Google提出Vision Transformer(ViT)以來,ViT漸漸成為許多視覺任務(wù)的默....
基于深度學(xué)習(xí)的圖像去模糊算法及應(yīng)用
當(dāng)前,絕大部分基于深度學(xué)習(xí)的圖像去模糊算法是不區(qū)分場(chǎng)景的,也就是他們是對(duì)常見的自然與人為設(shè)計(jì)的場(chǎng)景進(jìn)....
基于超大感受野注意力的超分辨率模型
通過引入像素注意力,PAN在大幅降低參數(shù)量的同時(shí)取得了非常優(yōu)秀的性能。相比通道注意力與空域注意力,像....