chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一文速覽醫(yī)學(xué)多模態(tài)進(jìn)展

深度學(xué)習(xí)自然語言處理 ? 來源:RUC AI Box ? 作者:楊錦霞 ? 2022-12-07 11:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

引言:目前,自然圖像-文本的多模態(tài)預(yù)訓(xùn)練模型已經(jīng)在各種各樣的下游任務(wù)上取得了非常好的效果,但是由于域之間的差異很難直接遷移到醫(yī)學(xué)領(lǐng)域。同時(shí),獲取有標(biāo)注的醫(yī)學(xué)圖像領(lǐng)域的數(shù)據(jù)集通常需要大量的專業(yè)知識(shí)和較高的成本,所以從對(duì)應(yīng)的放射學(xué)報(bào)告中得到有效監(jiān)督從而提高性能成為一種可能。本文主要介紹醫(yī)學(xué)的多模態(tài)模型的進(jìn)展,這些模型方法在下游的分類、分割、檢索、圖像生成等任務(wù)上均取得了性能的提升。

Contrastive Learning of Medical Visual Representations from Paired Images and Text

http://arxiv.org/abs/2010.00747

這篇文章提出了ConVIRT框架,核心思想其實(shí)就是多模態(tài)的對(duì)比學(xué)習(xí),是CLIP之前的工作,CLIP文中也有說受到ConVIRT的啟發(fā),其使用其實(shí)的是ConVIRT的簡化版本。ConVIRT的整體架構(gòu)如下:

45248c42-75db-11ed-8abf-dac502259ad0.png

主要流程比較直觀:一張圖片先做隨機(jī)變換得到不同的視圖,然后進(jìn)入Image Encoder,最后接一個(gè)非線性變化得到512維的特征表示;對(duì)與該圖片配對(duì)的放射學(xué)報(bào)告,首先進(jìn)行隨機(jī)采樣得到其中的某句話,然后進(jìn)入TextEncoder,最后通過得到512維的特征表示;最后分別對(duì)圖片和文本計(jì)算infoNCE loss。 GLoRIA: A Multimodal Global-Local Representation Learning Framework for Label-efficient Medical Image Recognition【ICCV2021】

https://ieeexplore.ieee.org/document/9710099/

本文主要從全局和局部進(jìn)行醫(yī)學(xué)圖像的表示學(xué)習(xí),提出GLoRIA模型,主要使用注意機(jī)制,通過匹配放射學(xué)報(bào)告中的單詞和圖像子區(qū)域來學(xué)習(xí)圖像的全局-局部表示。其中創(chuàng)建上下文感知的局部圖像表示是通過學(xué)習(xí)基于特定單詞的重要圖像子區(qū)域的注意力權(quán)重。如下圖中基于單詞“effusion”(積液)得到的圖像區(qū)域積液的權(quán)重就比較大。

4574a33a-75db-11ed-8abf-dac502259ad0.png

下圖是進(jìn)行全局和局部學(xué)習(xí)的方法圖。給定一對(duì)醫(yī)學(xué)圖像和報(bào)告,首先使用圖像編碼器和文本編碼器分別提取圖像和文本特征。

4592c4a0-75db-11ed-8abf-dac502259ad0.png

全局圖像-文本表示是通過全局對(duì)比損失進(jìn)行學(xué)習(xí)的。為了學(xué)習(xí)局部表征,首先基于圖像子區(qū)域特征和詞級(jí)特征計(jì)算相似性矩陣,以生成注意力加權(quán)圖像表示(Attention weighted image representation)。首先計(jì)算文本和圖像特征的所有組合之間的點(diǎn)積相似性:

45aceb50-75db-11ed-8abf-dac502259ad0.png

上式得到的表示的是個(gè)單詞和個(gè)圖像子區(qū)域的相似性矩陣,表示的就是第個(gè)單詞和第個(gè)圖像子區(qū)域之間的相似性。之后通過下面的softmax得到注意力權(quán)重:

45ba68d4-75db-11ed-8abf-dac502259ad0.png

對(duì)于報(bào)告中的每個(gè)單詞,我們根據(jù)其與所有圖像子區(qū)域的相似性計(jì)算注意力加權(quán)圖像表示:

45ccc0ce-75db-11ed-8abf-dac502259ad0.png

之后通過局部的對(duì)比損失來實(shí)現(xiàn)這一目標(biāo):使用函數(shù)計(jì)算單詞與其相應(yīng)的注意力加權(quán)圖像特征之間的相似性。

45ddd90e-75db-11ed-8abf-dac502259ad0.png

在給定詞表示的情況下,Local contrastive loss的目標(biāo)是使注意加權(quán)圖像區(qū)域表示的后驗(yàn)概率最大化:

45f2b554-75db-11ed-8abf-dac502259ad0.png

本文主要在圖像分類、檢索和分割上進(jìn)行性能評(píng)估。其中分類和檢索也是結(jié)合全局和局部圖像文本相似性去實(shí)現(xiàn)的。具體來說:通過圖像和文本表示提取特征后,基于全局圖像和文本表示計(jì)算全局相似度;利用基于詞的注意加權(quán)圖像表示和對(duì)應(yīng)的詞表示計(jì)算局部相似度。通過全局相似度和局部相似度的平均得到最終的圖像文本相似度。

460b2936-75db-11ed-8abf-dac502259ad0.png

但對(duì)于分類來說,其沒有具體的文本表示,GLoRIA的做法是預(yù)生成合理的文本,以描述分類類別中每種疾病子類型、嚴(yán)重程度和位置。通過隨機(jī)組合子類型、嚴(yán)重性和位置的可能單詞生成文本提示來作為每個(gè)分類類的文本。 MedCLIP: Contrastive Learning from Unpaired Medical Images and Text【EMNLP 2022】

http://arxiv.org/abs/2210.10163

這篇文章提出了MedCLIP模型,出發(fā)點(diǎn)一方面是醫(yī)學(xué)圖像文本數(shù)據(jù)集比互聯(lián)網(wǎng)上的一般圖像文本數(shù)據(jù)集要少幾個(gè)數(shù)量級(jí),另一方面是以前的方法會(huì)遇到許多假陰性,即來自不同患者的圖像和報(bào)告可能具有相同的語義,但被錯(cuò)誤地視為負(fù)樣本。所以MedCLIP通過將圖片文本對(duì)進(jìn)行解耦然后進(jìn)行對(duì)比學(xué)習(xí),通過引入外部醫(yī)學(xué)知識(shí)而減少假陰性。

46205180-75db-11ed-8abf-dac502259ad0.png

假設(shè)有個(gè)成對(duì)的圖像文本樣本、個(gè)標(biāo)記的圖像和個(gè)醫(yī)學(xué)句子。以前的方法只能使用對(duì)樣本,但MedCLIP將個(gè)圖像文本對(duì)分別解耦為個(gè)圖像和個(gè)句子。最終能夠通過遍歷所有可能的組合來獲得圖像文本對(duì),所以這樣就可以得到倍的監(jiān)督信號(hào)。 為了完成額外的監(jiān)督,MedCLIP利用外部醫(yī)學(xué)知識(shí)來構(gòu)建知識(shí)驅(qū)動(dòng)的語義相似性。這里MedCLIP使用了外部工具M(jìn)etaMap,MetaMap是可以從原始句子中提取統(tǒng)一醫(yī)學(xué)語言系統(tǒng)(UMLS)中定義的實(shí)體。遵循之前工作的做法,主要關(guān)注14種主要實(shí)體類型。同樣,對(duì)于帶有診斷標(biāo)簽的圖像,也是利用MetaMap將原始類映射到UMLS概念,從而與文本中的實(shí)體對(duì)齊,例如,“Normal”映射到“No Findings”。接下來就可以從提取的圖像和文本實(shí)體中構(gòu)建multi-hot向量,分別為和。因此,通過這種方式統(tǒng)一了圖像和文本的語義。對(duì)于任何圖像和文本,MedCLIP就可以通過比較相應(yīng)的和來衡量它們的語義相似性。 MedCLIP通過構(gòu)建的語義標(biāo)簽和來連接圖像和文本,首先可以得到soft targets:

46320fba-75db-11ed-8abf-dac502259ad0.png

表示的就是醫(yī)學(xué)語義的相似性。對(duì)圖片和文本分別進(jìn)行softmax:

464c7256-75db-11ed-8abf-dac502259ad0.png

另外我們也可以通過直接將圖像和文本特征計(jì)算余弦相似性得到logit,同樣進(jìn)行softmax處理:

466287b2-75db-11ed-8abf-dac502259ad0.png

468e4eb0-75db-11ed-8abf-dac502259ad0.png

因此,Semantic Matching Loss是logits和soft targets之間的交叉熵:

469b3512-75db-11ed-8abf-dac502259ad0.png

Multi-Granularity Cross-modal Alignment for Generalized Medical Visual Representation Learning【NIPS 2022】

http://arxiv.org/abs/2210.06044

這篇文章提出MGCA框架,通過多粒度跨模態(tài)對(duì)齊學(xué)習(xí)通用醫(yī)學(xué)視覺表示。如下圖所示,醫(yī)學(xué)圖像和放射學(xué)報(bào)告會(huì)在不同層級(jí)自然而然表現(xiàn)出多粒度語義對(duì)應(yīng)關(guān)系:疾病層級(jí)、實(shí)例層級(jí)和病理區(qū)域?qū)蛹?jí)。

46b49e08-75db-11ed-8abf-dac502259ad0.png

圖像和文本首先分別經(jīng)過圖像和文本編碼器,得到一系列token表示,然后通過下面三個(gè)模塊實(shí)現(xiàn)三個(gè)粒度的對(duì)應(yīng):

46d13112-75db-11ed-8abf-dac502259ad0.png

Instance-wise Image-Text Alignment (ITA):進(jìn)行實(shí)例級(jí)別的對(duì)齊,即圖像文本的對(duì)比損失。 Cross-attention-based Token-wise Alignment (CTA):基于交叉注意力機(jī)制的token級(jí)別的對(duì)齊。這個(gè)模塊的出發(fā)點(diǎn)對(duì)應(yīng)到前面的病理區(qū)域級(jí)別,用CTA模塊來顯式匹配和對(duì)齊局部的醫(yī)學(xué)圖像和放射學(xué)報(bào)告。思路是進(jìn)行token級(jí)別的對(duì)齊,使用交叉注意計(jì)算生成的視覺和文本token之間的一個(gè)匹配。形式上,對(duì)于第個(gè)圖像文本對(duì)中的第個(gè)視覺token,我們讓去和對(duì)應(yīng)的文本中的所有token計(jì)算其對(duì)應(yīng)的跨模態(tài)文本嵌入,看作得到了和圖片token相似的文本信息。

46e64f98-75db-11ed-8abf-dac502259ad0.png

之后采用local image-to-text alignment 損失來將圖片token接近其交叉模態(tài)文本嵌入,但將推離其他跨模態(tài)文本嵌入,同時(shí)考慮到不同的視覺標(biāo)記具有不同的重要性(例如,包含病理的視覺標(biāo)記顯然比具有不相關(guān)信息的視覺標(biāo)記更重要),我們在計(jì)算LIA損失時(shí)為視覺token分配權(quán)重。因此,如下:

46f5d382-75db-11ed-8abf-dac502259ad0.png

Cross-modal Prototype Alignment (CPA):ITA 和 CTA 都將來自不同實(shí)例的樣本視為負(fù)對(duì),所以可能會(huì)把有許多類似的語義的樣本在嵌入空間推開,例如相同的疾病的對(duì)。因此,CPA模塊是為了進(jìn)行疾病級(jí)別的對(duì)齊。首先使用迭代的聚類算法Sinkhorn-Knopp,文本和圖像分別被聚類算法預(yù)測結(jié)果是和,同時(shí)有個(gè)可學(xué)習(xí)的原型聚類中心,,可以直接計(jì)算得到圖像/文本和每個(gè)類中心的softmax概率:

470aabcc-75db-11ed-8abf-dac502259ad0.png

跨模態(tài)疾病水平(即原型)對(duì)齊是通過進(jìn)行跨模態(tài)預(yù)測和優(yōu)化以下兩個(gè)交叉熵?fù)p失來實(shí)現(xiàn)的。使用 作為“偽標(biāo)簽”來訓(xùn)練圖像表示,作為“偽標(biāo)簽”來訓(xùn)練文本表示:

471a8952-75db-11ed-8abf-dac502259ad0.png

最后,CPA損失是所有圖像報(bào)告對(duì)中兩個(gè)預(yù)測損失的平均值:

4728eec0-75db-11ed-8abf-dac502259ad0.png

MGCA總的目標(biāo)是三個(gè)模塊目標(biāo)的加權(quán)和。 LViT: Language meets Vision Transformer in Medical Image Segmentation

http://arxiv.org/abs/2206.14718

LViT 模型主要用于醫(yī)學(xué)圖像分割,是一個(gè)雙 U 結(jié)構(gòu),由一個(gè) U 形 CNN 分支和一個(gè) U 形 Transformer 分支組成。CNN 分支負(fù)責(zé)圖片輸入和預(yù)測輸出,ViT 分支用于合并圖像和文本信息,利用 Transformer 處理跨模態(tài)信息。

4749997c-75db-11ed-8abf-dac502259ad0.png

U 形 ViT 分支設(shè)計(jì)用于合并圖像特征和文本特征。第一層DownViT模塊接收文本特征輸入和來自第一層DownCNN模塊的圖像特征輸入。特定的跨模態(tài)特征合并操作由以下等式表示:

4767c532-75db-11ed-8abf-dac502259ad0.png

后續(xù) DownViT 模塊既接收來自上層 DownViT 模塊的特征,又接收來自相應(yīng)層的 DownCNN 模塊的特征。 然后,對(duì)應(yīng)尺寸的特征通過 UpViT 模塊傳輸回 CNN-ViT 交互模塊。并且該特征與相應(yīng)層的 DownCNN 模塊中的特征合并。這將最大限度地提取圖像全局特征,并避免由于文本注釋的不準(zhǔn)確性而導(dǎo)致的模型性能振蕩。 PLAM模塊的設(shè)計(jì)如上圖b所示,旨在保留圖像的局部特征,并進(jìn)一步合并文本中的語義特征;

4783fe82-75db-11ed-8abf-dac502259ad0.png

為了擴(kuò)展 LViT 的半監(jiān)督版本,LViT使用指數(shù)偽標(biāo)簽迭代機(jī)制(EPI)。其中表示模型的預(yù)測,通過不簡單地使用一代模型預(yù)測的偽標(biāo)簽作為下一代模型的目標(biāo)從而避免偽標(biāo)簽質(zhì)量下降。因此,EPI可以逐步優(yōu)化模型對(duì)每個(gè)未標(biāo)記像素的分割預(yù)測結(jié)果,并對(duì)噪聲標(biāo)簽具有魯棒性。

47ab5e1e-75db-11ed-8abf-dac502259ad0.png

為了進(jìn)一步利用文本信息來指導(dǎo)偽標(biāo)簽的生成,設(shè)計(jì)了Languane-Vision Loss函數(shù)。首先計(jì)算對(duì)應(yīng)于偽標(biāo)簽的文本特征向量和用于對(duì)比標(biāo)簽的文本特征向量之間的余弦相似性TextSim。之后根據(jù)TextSim,選擇相似度最高的對(duì)比文本,并找到與該文本對(duì)應(yīng)的圖像mask。然后再計(jì)算圖片的偽標(biāo)簽和對(duì)比標(biāo)簽之間的相似性:

47be8278-75db-11ed-8abf-dac502259ad0.png

對(duì)比標(biāo)簽主要提供近似位置的標(biāo)簽信息,而不是邊界的細(xì)化。因此的主要目的是避免差異顯著的分割錯(cuò)誤或錯(cuò)誤標(biāo)記病例。因此只在未標(biāo)記的情況下使用LV損失,在沒有標(biāo)簽的情況下,可以避免偽標(biāo)簽質(zhì)量的急劇惡化。 Adapting Pretrained Vision-Language Foundational Models to Medical Imaging Domains

http://arxiv.org/abs/2210.04133

目前許多生成模型雖然表現(xiàn)出了出色的生成能力,但它們通常不能很好地推廣到特定領(lǐng)域,例如醫(yī)學(xué)圖像領(lǐng)域。但是,利用生成模型生成一些醫(yī)學(xué)圖像出來可能有助于緩解醫(yī)療數(shù)據(jù)集的匱乏。因此,這項(xiàng)工作主要是研究將大型預(yù)訓(xùn)練基礎(chǔ)模型的表示能力擴(kuò)展到醫(yī)學(xué)概念,具體來說,本文是利用擴(kuò)散模型stable diffusion生成醫(yī)學(xué)圖像。

47d1822e-75db-11ed-8abf-dac502259ad0.png

主要是利用了穩(wěn)定擴(kuò)散模型的架構(gòu),將整個(gè)設(shè)定轉(zhuǎn)化為了放射學(xué)的圖像和文本。具體流程如上圖二所示,給定隨機(jī)噪聲進(jìn)行去噪,在這個(gè)過程中會(huì)有文本作為條件去影響去噪的過程,最后使用VAE的解碼器進(jìn)行圖像的生成。整個(gè)工作是比較偏實(shí)驗(yàn)和驗(yàn)證性的。主要從stable diffusion的各個(gè)模塊進(jìn)行訓(xùn)練,包括VAE、Text Encoder、Textual Projection、Textual Embeddings Fine-tuning、U-Net Fine-tuning。

47ea3cce-75db-11ed-8abf-dac502259ad0.png

通過兩個(gè)簡單的prompt:“肺部射線照片”和“帶有可見胸腔積液的射線照片”來測試不同設(shè)置下的生成能力。并通過定量的FID指標(biāo)進(jìn)行評(píng)估。

483dc3c6-75db-11ed-8abf-dac502259ad0.png

從定性和定量的結(jié)果來看,表現(xiàn)最好的是U-Net訓(xùn)練的第二種設(shè)定,能夠生成較好的圖片的同時(shí)還能匹配文本的語義,能夠理解有無“胸腔積液”的區(qū)別。 Generalized radiograph representation learning via cross-supervision between images and free-text radiology reports【Natural Machine Intelligence 2022】

https://arxiv.org/abs/2111.03452

本文提出REFERS模型,主要通過在圖像和文本對(duì)上進(jìn)行交叉監(jiān)督學(xué)習(xí)去得到放射學(xué)表征。

4857cd7a-75db-11ed-8abf-dac502259ad0.png

主要考慮到每項(xiàng)患者研究通常都有一份自由文本報(bào)告但是通常涉及不止一張 X 光片。首先通過radiograph transformer來提取不同視圖的相關(guān)特征表示。為了充分利用每份報(bào)告的信息,設(shè)計(jì)了一個(gè)基于注意力機(jī)制的視圖融合模塊,以同時(shí)處理患者研究中的所有射線照片并融合多個(gè)特征。 接下來進(jìn)行交叉監(jiān)督學(xué)習(xí),從自由文本放射學(xué)報(bào)告中獲取監(jiān)督信號(hào)。主要通過兩個(gè)任務(wù):reportgeneration和study–report representation consistency reinforcement實(shí)現(xiàn)監(jiān)督。第一項(xiàng)任務(wù)采用原始放射學(xué)報(bào)告中的自由文本來監(jiān)督radiograph transformer的訓(xùn)練過程。第二項(xiàng)任務(wù)加強(qiáng)了患者研究的視覺表示與其相應(yīng)報(bào)告的文本表示之間的一致性。第一項(xiàng)任務(wù)主要通過report transformer在給定圖像和前面的token的條件下進(jìn)行token的生成:

487bbd98-75db-11ed-8abf-dac502259ad0.png

第二項(xiàng)任務(wù)通過圖像和文本的對(duì)比來實(shí)現(xiàn)。 RoentGen: Vision-Language Foundation Model for Chest X-ray Generation

http://arxiv.org/abs/2211.12737

本文提出了RoentGen,是用于合成高保真的胸片的生成模型,能夠通過自由形式的醫(yī)學(xué)語言文本prompt進(jìn)行插入、組合和修改各種胸片的成像,同時(shí)能夠具有相應(yīng)醫(yī)學(xué)概念的高度的圖像相關(guān)性。

488a921e-75db-11ed-8abf-dac502259ad0.png

使用RoentGen對(duì)胸部X射線圖像進(jìn)行文本到圖像合成流程如上圖所示。使用微調(diào)或重新訓(xùn)練的U-Net 對(duì)隨機(jī)高斯噪聲進(jìn)行降噪,同時(shí)此過程中會(huì)有文本編碼器從醫(yī)療文本提示得到的編碼。最后VAE的解碼器將去噪的向量映射到像素空間,從而產(chǎn)生高保真、多樣化的胸部射線圖像。 其中,微調(diào)或重新訓(xùn)練的具體方式是這樣的:使用文本編碼器和VAE,對(duì)提示和相應(yīng)的圖像進(jìn)行編碼,并將采樣噪聲添加到后者的潛在表示中,之后U-Net進(jìn)行預(yù)測原始采樣噪聲:

48a8cfcc-75db-11ed-8abf-dac502259ad0.png

計(jì)算真實(shí)噪聲和預(yù)測噪聲之間的MSE loss,由此提高生成能力:

48b85a96-75db-11ed-8abf-dac502259ad0.png

總結(jié):目前醫(yī)學(xué)多模態(tài)通過不同的模型設(shè)計(jì)從而學(xué)習(xí)局部語義、獲取更多相關(guān)知識(shí)信息、盡可能利用現(xiàn)有數(shù)據(jù)集、生成圖像以盡可能彌補(bǔ)數(shù)據(jù)量少的問題,在下游的多種任務(wù)上得到了性能提升。如何進(jìn)一步學(xué)習(xí)更加通用的醫(yī)學(xué)模型、如何將其應(yīng)用到實(shí)際中是仍然值得思考和探索的。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3951

    瀏覽量

    142587
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1096

    瀏覽量

    42325
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1236

    瀏覽量

    26187

原文標(biāo)題:一文速覽醫(yī)學(xué)多模態(tài)進(jìn)展

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    模態(tài)感知大模型驅(qū)動(dòng)的密閉空間自主勘探系統(tǒng)的應(yīng)用與未來發(fā)展

    ? ? 模態(tài)感知大模型驅(qū)動(dòng)的密閉空間自主勘探系統(tǒng) ? ?北京華盛恒輝模態(tài)感知大模型驅(qū)動(dòng)的密閉空間自主勘探系統(tǒng),是融合
    的頭像 發(fā)表于 12-29 11:27 ?292次閱讀

    MCU軟件核心庫及示例代碼

    為加速嵌入式項(xiàng)目開發(fā),本文對(duì)MCU軟件核心庫進(jìn)行整體,涵蓋初始化、外設(shè)控制與中斷處理等關(guān)鍵部分,并結(jié)合簡潔示例代碼,幫助開發(fā)者快速理解與應(yīng)用庫功能。 、MCU核心庫函數(shù)功能 MCU核心庫
    的頭像 發(fā)表于 12-11 17:19 ?686次閱讀
    MCU軟件核心庫及示例代碼<b class='flag-5'>速</b><b class='flag-5'>覽</b> !

    商湯科技正式發(fā)布并開源全新模態(tài)模型架構(gòu)NEO

    商湯科技正式發(fā)布并開源了與南洋理工大學(xué)S-Lab合作研發(fā)的全新模態(tài)模型架構(gòu) —— NEO,為日日新SenseNova 模態(tài)模型奠定了新
    的頭像 發(fā)表于 12-08 11:19 ?1010次閱讀
    商湯科技正式發(fā)布并開源全新<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>模型架構(gòu)NEO

    格靈深瞳模態(tài)大模型Glint-ME讓圖文互搜更精準(zhǔn)

    在電商、安防等場景下,圖文互搜應(yīng)用廣泛。隨著以CLIP為代表的模態(tài)表征方法相繼提出,過去單模態(tài)搜索(
    的頭像 發(fā)表于 11-02 15:56 ?1708次閱讀
    格靈深瞳<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型Glint-ME讓圖文互搜更精準(zhǔn)

    亞馬遜云科技上線Amazon Nova模態(tài)嵌入模型

    Embeddings模態(tài)嵌入模型現(xiàn)已在Amazon Bedrock上線,這是款專為Agentic RAG與語義搜索應(yīng)用打造的頂尖模態(tài)
    的頭像 發(fā)表于 10-29 17:15 ?256次閱讀
    亞馬遜云科技上線Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>嵌入模型

    劃重點(diǎn)!浦江開源鴻蒙生態(tài)大會(huì)金句

    劃重點(diǎn)!浦江開源鴻蒙生態(tài)大會(huì)金句
    的頭像 發(fā)表于 10-16 17:29 ?634次閱讀
    劃重點(diǎn)!<b class='flag-5'>一</b>圖<b class='flag-5'>速</b><b class='flag-5'>覽</b>浦江開源鴻蒙生態(tài)大會(huì)金句

    淺析模態(tài)標(biāo)注對(duì)大模型應(yīng)用落地的重要性與標(biāo)注實(shí)例

    ?在人工智能邁向AGI通用智能的關(guān)鍵道路上,大模型正從單的文本理解者,演進(jìn)為能同時(shí)看、聽、讀、想的“多面手”。驅(qū)動(dòng)這進(jìn)化的核心燃料,正是高質(zhì)量的模態(tài)數(shù)據(jù),而將原始數(shù)據(jù)轉(zhuǎn)化為“機(jī)器
    的頭像 發(fā)表于 09-05 13:49 ?2213次閱讀

    商湯科技模態(tài)通用智能戰(zhàn)略思考

    時(shí)間是最好的試金石,AI領(lǐng)域尤其如此。當(dāng)行業(yè)熱議大模型走向時(shí),商湯早已錨定“模態(tài)通用智能”——這是我們以深厚研究積累和實(shí)踐反復(fù)驗(yàn)證的可行路徑。
    的頭像 發(fā)表于 08-14 09:33 ?1178次閱讀

    模態(tài)感知+豆包大模型!家居端側(cè)智能升級(jí)

    電子發(fā)燒友網(wǎng)報(bào)道(/李彎彎)日前,在火山引擎2025春季FORCE原動(dòng)力大會(huì)上,星宸科技股份有限公司董事副總經(jīng)理陳立敬談到,在人工智能技術(shù)飛速發(fā)展的時(shí)代,模態(tài)感知與大模型的融合成為推動(dòng)各行業(yè)變革
    的頭像 發(fā)表于 06-21 00:06 ?7106次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>感知+豆包大模型!家居端側(cè)智能升級(jí)

    愛芯通元NPU適配Qwen2.5-VL-3B視覺模態(tài)大模型

    熟悉愛芯通元NPU的網(wǎng)友很清楚,從去年開始我們在端側(cè)模態(tài)大模型適配上直處于主動(dòng)緊跟的節(jié)奏。先后適配了國內(nèi)最早開源的模態(tài)大模MiniCP
    的頭像 發(fā)表于 04-21 10:56 ?3125次閱讀
    愛芯通元NPU適配Qwen2.5-VL-3B視覺<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型

    ??低暟l(fā)布模態(tài)大模型AI融合巡檢超腦

    基于??涤^瀾大模型技術(shù)體系,??低曂瞥鲂?b class='flag-5'>一代模態(tài)大模型AI融合巡檢超腦,全面升級(jí)人、車、行為、事件等算法,為行業(yè)帶來全新的模態(tài)大模型巡
    的頭像 發(fā)表于 04-17 17:12 ?1609次閱讀

    移遠(yuǎn)通信智能模組全面接入模態(tài)AI大模型,重塑智能交互新體驗(yàn)

    全系智能模組產(chǎn)品已全面接入火山引擎豆包VLM(視覺語言)模態(tài)AI大模型。這突破性進(jìn)展表明,搭載移遠(yuǎn)任意智能模組的終端設(shè)備,均可無縫融合
    發(fā)表于 03-21 14:12 ?532次閱讀
    移遠(yuǎn)通信智能模組全面接入<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大模型,重塑智能交互新體驗(yàn)

    移遠(yuǎn)通信智能模組全面接入模態(tài)AI大模型,重塑智能交互新體驗(yàn)

    智能模組產(chǎn)品已全面接入火山引擎豆包VLM(視覺語言)模態(tài)AI大模型。這突破性進(jìn)展表明,搭載移遠(yuǎn)任意智能模組的終端設(shè)備,均可無縫融合
    的頭像 發(fā)表于 03-20 19:03 ?816次閱讀
    移遠(yuǎn)通信智能模組全面接入<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大模型,重塑智能交互新體驗(yàn)

    商湯“日日新”融合大模型登頂大語言與模態(tài)雙榜單

    據(jù)弗若斯特沙利(Frost & Sullivan, 簡稱“沙利”)聯(lián)合頭豹研究院發(fā)布的《2025年中國大模型年度評(píng)測》結(jié)果顯示:在語言和模態(tài)核心能力測評(píng)中,商湯“日日新”融合大模
    的頭像 發(fā)表于 03-18 10:35 ?1137次閱讀

    ?模態(tài)交互技術(shù)解析

    模態(tài)交互 模態(tài)交互( Multimodal Interaction )是指通過多種感官通道(如視覺、聽覺、觸覺等)或多種交互方式(如語音、手勢、觸控、眼動(dòng)等)與計(jì)算機(jī)系統(tǒng)進(jìn)行自然、
    的頭像 發(fā)表于 03-17 15:12 ?4384次閱讀