暖暖MV视频大全在线观看,私拍无码露脸

今天，商湯科技發(fā)布一篇最新技術博客 NEO-unify: 原生架構打造端到端多模態(tài)理解與生成統(tǒng)一模型（NEO-unify: Building Native Multimodal Unified Models End to End）

這篇博客深入解讀NEO-unify：一項旨在從底層統(tǒng)一多模態(tài)理解與生成的端到端原生架構。

當前，多模態(tài)模型普遍采用“視覺編碼器（VE）用于理解，變分自編碼器（VAE）用于生成”的組合式設計。這套范式雖行之有效，卻也內在割裂了感知與創(chuàng)造，常面臨模塊協(xié)同與效率權衡的挑戰(zhàn)。

我們能否更進一步，讓AI像人一樣，直接從最原始的像素和文字中，統(tǒng)一地進行學習、理解與生成？這正是NEO-unify嘗試回答的根本問題。它摒棄了傳統(tǒng)的VE與VAE，首次構建了一個真正的端到端原生統(tǒng)一模型，在同一個架構內直接處理像素與文本，并在此基礎上協(xié)同完成理解與生成任務。初步研究成果令人振奮，該設計在保持強大語義理解與細節(jié)恢復能力的同時，顯著提升了訓練與計算效率。

這項技術將如何為生成式AI打開新的想象？讓我們一同展開探討。

《NEO-unify：原生架構打造端到端多模態(tài)理解與生成統(tǒng)一模型》

英文博客地址：

https://huggingface.co/blog/sensenova/neo-unify

中文博客地址：

https://www.sensetime.com/cn/news-detail/51170543?categoryId=72

當前多模態(tài)智能架構困境

長期以來，多模態(tài)研究已形成一種默認范式：視覺編碼器（Vision Encoder, VE）負責感知與理解，而變分自編碼器（Variational Autoencoder, VAE）則用于內容生成。近期的一些工作嘗試構建共享編碼器，但這種折衷往往引入新的結構性設計權衡。

由此回到第一性原理：構建一體化模型直接處理原生輸入，即像素本身與文字本身。商湯科技聯(lián)合南洋理工大學，提出一種全新的架構范式：NEO-unify（preview），一個原生、統(tǒng)一、端到端的多模態(tài)模型架構。它不僅越過了當前視覺表征的爭論，也擺脫了預訓練先驗和規(guī)模定律瓶頸的限制。最關鍵的是：不需要 VE，也不需要 VAE。

我們正擴大規(guī)模、持續(xù)迭代。更多模型與開源成果，將很快與大家見面。

NEO-unify原生一體化架構新范式

NEO-unify 第一次邁向真正的端到端統(tǒng)一框架，能夠直接從近乎無損的信息輸入中學習，并由模型自身塑造內部表征空間。首先，引入近似無損的視覺接口，用于統(tǒng)一圖像的輸入與輸出表示；其次，采用原生混合Transformer（Mixture-of-Transformer，MoT）架構，使理解與生成能夠在同一體系中協(xié)同進行；最終，通過統(tǒng)一學習框架實現(xiàn)跨模態(tài)訓練：文本采用自回歸交叉熵目標，視覺通過像素流匹配進行優(yōu)化。

模型效果

1. 定量結果分析

2. 生圖效果展示

技術發(fā)現(xiàn)

1. 無編碼器設計能夠同時保留抽象語義與細粒度表征

[圖像重建任務]

我們先前的工作NEO（Diao et al., ICLR 2026）表明，原生端到端模型同樣能夠學習到豐富的語義表征。在此基礎上，我們進一步觀察到一個有趣的現(xiàn)象：即使在凍結理解分支的情況下，獨立的生成分支仍然能夠從表示中抽取并恢復細粒度的視覺細節(jié)。

基于這一發(fā)現(xiàn)，我們訓練了NEO-unify（2B）。在初步 9 萬步預訓練后，模型在 MS COCO 2017 上取得31.56 PSNR和0.85 SSIM，而Flux VAE的對應指標為32.65和0.91。這一結果表明，即使不依賴預訓練VE或VAE，近似無損的原生輸入仍能夠同時支持高質量的語義理解與像素級細節(jié)保真。

域外圖像重建（2B NEO-unify，理解分支凍結）

[圖像編輯任務]

據(jù)此，我們進一步開展探索：NEO-unify將所有全模態(tài)條件信息統(tǒng)一輸入到理解分支，而生成分支僅負責生成新的圖像。

即使在凍結理解分支的情況下，NEO-unify（2B）仍展現(xiàn)出強大的圖像編輯能力，同時顯著減少了輸入圖像令牌的數(shù)量。在使用開源生成與圖像編輯數(shù)據(jù)集并進行初步 6 萬步混合訓練后，模型在ImgEdit基準上取得3.32的成績，且理解分支在整個訓練過程中保持凍結。

小規(guī)模數(shù)據(jù)驗證（2B NEO-unify，理解分支凍結）

ImgEdit提示詞編輯（2B NEO-unify，理解分支凍結）

2. 無編碼器架構與 MoT 主干高度協(xié)同大幅降低內在沖突

借助預訓練的理解分支與生成分支，NEO-unify使用相同的中期訓練（MT）與監(jiān)督微調（SFT）數(shù)據(jù)進行聯(lián)合訓練。即使在較低的數(shù)據(jù)比例和損失權重下，理解能力依然保持穩(wěn)定，而生成能力則收斂很快。二者在 MoT 主干中協(xié)同提升，整體沖突極小。

3. 無編碼器架構，展現(xiàn)更高數(shù)據(jù)訓練效率

此外，我們首先進行 web-scale 預訓練，隨后在多樣且高質量的數(shù)據(jù)語料上依次進行中期訓練（MT）和監(jiān)督微調（SFT）。與 Bagel 模型相比，NEO-unify 展現(xiàn)出更高的數(shù)據(jù)訓練效率，在使用更少訓練 token 的情況下取得了更優(yōu)的性能。