chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

對(duì)話三位IEEE專家:如何理解SAM視覺(jué)大模型

IEEE電氣電子工程師 ? 來(lái)源:IEEE電氣電子工程師 ? 2023-08-23 16:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

正在流行的視覺(jué)AI大模型SAM究竟是一種什么樣的技術(shù),會(huì)形成什么樣的產(chǎn)業(yè)影響?經(jīng)濟(jì)觀察報(bào)就此采訪三位IEEE(電氣電子工程師學(xué)會(huì))專家,解讀了視覺(jué)大模型SAM技術(shù)、應(yīng)用路線以及對(duì)原有產(chǎn)業(yè)的影響。

今年4月,Meta公布了一款名為SAM(Segment Anything Model)的技術(shù),這是一款用于圖像分割的AI大模型,會(huì)對(duì)圖像進(jìn)行觀察、感知、思考、邏輯推理、得出結(jié)果,且操作極其簡(jiǎn)單,類似于ChatGPT用人類語(yǔ)言對(duì)話的方式給機(jī)器下命令。

IEEE高級(jí)會(huì)員、天津理工大學(xué)教授、AR/VR技術(shù)專家羅訓(xùn)對(duì)記者表示,SAM是視覺(jué)領(lǐng)域的通用大模型,很多報(bào)道中把它比喻成視覺(jué)領(lǐng)域的ChatG-PT,SAM和ChatGPT的支撐技術(shù)和應(yīng)用場(chǎng)景都是不同的,但是在通用性這一點(diǎn)上,它們都是當(dāng)前技術(shù)發(fā)展趨勢(shì)的代表者。

SAM技術(shù)、應(yīng)用路線和顛覆性

作為AI的一個(gè)重要分支,機(jī)器視覺(jué)的目標(biāo)是讓計(jì)算機(jī)模仿人類視覺(jué)系統(tǒng),實(shí)現(xiàn)圖像和視頻的理解和處理。

IEEE數(shù)字化轉(zhuǎn)型聯(lián)合會(huì)策略與架構(gòu)主席汪齊齊對(duì)記者表示,高效準(zhǔn)確的圖像分割結(jié)果,對(duì)于日常生活和商業(yè)場(chǎng)景,甚至科研領(lǐng)域都具有重大意義。正因?yàn)槿绱?,其?a href="http://www.brongaenegriffin.com/v/tag/3744/" target="_blank">計(jì)算機(jī)視覺(jué)領(lǐng)域一直是個(gè)重要的課題。SAM的圖像分割功能,是機(jī)器視覺(jué)的核心任務(wù)之一。過(guò)去,機(jī)器視覺(jué)分割圖像的過(guò)程需要大量圖像標(biāo)注、堆疊算法,消耗大量算力。如今,SAM更容易地實(shí)現(xiàn)了機(jī)器視覺(jué)的目標(biāo)。

Meta將SAM大模型和背后數(shù)據(jù)集一并開(kāi)源,相關(guān)的研究手稿也于今年4月5日發(fā)布在arXiv上(用于學(xué)術(shù)交流的預(yù)印本平臺(tái)),作者有Alexander Kirillov,Eric Mintun等12人。

此后,SAM在開(kāi)源社區(qū)Github上獲得大量關(guān)注,一些華人學(xué)者又照此原理提出了相關(guān)的大模型GroundingDI-NO,用于物體檢測(cè),不久GitHub上有人再創(chuàng)新,將GroundingDINO和SAM結(jié)合,達(dá)到了對(duì)圖像識(shí)別、檢測(cè)、分割的效果。

汪齊齊表示,該模型在準(zhǔn)確程度、效率上,達(dá)到了驚人的提升。尤其是SAM開(kāi)源的SA-1B數(shù)據(jù)庫(kù),用巨量的圖像以及更加巨量的Mask(這里譯為圖層遮罩),將有助于許多科研項(xiàng)目和商業(yè)化項(xiàng)目在高起點(diǎn)上快速更新迭代,產(chǎn)生更好的模型和更優(yōu)化的數(shù)據(jù)。

Meta從AR、VR、內(nèi)容創(chuàng)建等領(lǐng)域,介紹了SAM的應(yīng)用場(chǎng)景。中國(guó)的專家看到了更廣泛的應(yīng)用場(chǎng)景。

羅訓(xùn)對(duì)記者表示,鑒于計(jì)算機(jī)視覺(jué)的廣泛應(yīng)用場(chǎng)景,SAM的發(fā)布對(duì)產(chǎn)業(yè)的影響也會(huì)是巨大的,會(huì)賦能更多的長(zhǎng)尾創(chuàng)新者進(jìn)入產(chǎn)業(yè),并進(jìn)一步豐富應(yīng)用場(chǎng)景和商業(yè)模式。

汪齊齊表示,早前人工智能技術(shù)就能實(shí)現(xiàn)回答用戶問(wèn)題的功能,而Chat-GPT第一次讓很多人產(chǎn)生了“生成的回復(fù)可以在接受的比例下用于日常、商用和科研”,并因此達(dá)到了在這個(gè)垂直領(lǐng)域前所未有的高度。目前SAM的分割結(jié)果,以及其公開(kāi)的大量供公眾使用的資源來(lái)看,SAM在其擅長(zhǎng)的垂直領(lǐng)域也達(dá)到了相當(dāng)可觀的高度,并會(huì)從技術(shù)、數(shù)據(jù)以及對(duì)于這個(gè)領(lǐng)域的關(guān)注度等多方面幫助計(jì)算機(jī)視覺(jué)在短時(shí)間內(nèi)產(chǎn)生大量突破,而計(jì)算機(jī)視覺(jué),是一個(gè)非常重要的“廣義AI生態(tài)”中的基礎(chǔ)設(shè)施,該方面的突破將實(shí)現(xiàn)對(duì)數(shù)字化世界的理解和升級(jí),帶來(lái)質(zhì)變的效率和價(jià)值提升。

IEEE會(huì)士、河海大學(xué)信息科學(xué)與工程學(xué)院院長(zhǎng)韓光潔對(duì)記者表示,SAM將會(huì)在自動(dòng)駕駛、安防控制、醫(yī)學(xué)影像處理等應(yīng)用領(lǐng)域改變業(yè)態(tài)布局,甚至引發(fā)技術(shù)革命。SAM作為一個(gè)基礎(chǔ)模型,可為這些應(yīng)用領(lǐng)域快速孵化出適用性更強(qiáng)的專用網(wǎng)絡(luò)模型。

SAM的變革性可能會(huì)顛覆一批原有的AI技術(shù)優(yōu)勢(shì)。汪齊齊表示,視覺(jué)大模型會(huì)在相當(dāng)多的領(lǐng)域抵消技術(shù)壁壘,這在任何一次產(chǎn)業(yè)技術(shù)升級(jí)中都多次出現(xiàn),也是無(wú)法避免的。

羅訓(xùn)表示,通用大模型就相當(dāng)于AI的能力開(kāi)放平臺(tái),之前頭部企業(yè)的AI能力優(yōu)勢(shì),會(huì)因?yàn)橥ㄓ么竽P偷呐d起而被一定程度削弱。但是這些企業(yè)是否本身會(huì)變?nèi)?,取決于它們的轉(zhuǎn)型。

羅訓(xùn)舉例稱,回顧移動(dòng)計(jì)算在本世紀(jì)前十年的變化,iOS和安卓的能力開(kāi)放平臺(tái)在賦能長(zhǎng)尾創(chuàng)新者方面起到了非常重要的作用,極大增加了移動(dòng)計(jì)算產(chǎn)業(yè)規(guī)模。在移動(dòng)計(jì)算領(lǐng)域,WindowsMobile和塞班的封閉平臺(tái)最終因?yàn)槿狈Ω?jìng)爭(zhēng)力而退出了市場(chǎng)。

汪齊齊表示,作為有核心技術(shù)儲(chǔ)備和深入理解的企業(yè),首先是需要擁抱大模型,尤其是應(yīng)該感謝相對(duì)公開(kāi)的大模型,將自己對(duì)于產(chǎn)業(yè)的理解和領(lǐng)先部分,在大模型的加持下快速升級(jí),演化出更新的形態(tài)。同時(shí),計(jì)算機(jī)視覺(jué)領(lǐng)域也一定會(huì)有大模型目前還不擅長(zhǎng)的領(lǐng)域,仍然可以作為技術(shù)壁壘,并在這些方面繼續(xù)深挖獨(dú)有優(yōu)勢(shì)。

AIGC帶來(lái)知識(shí)和技術(shù)的平權(quán)?

此前有科技企業(yè)表示,AIGC的本質(zhì)是技術(shù)平權(quán)和知識(shí)平權(quán),這在很大程度上將大廠與小廠拉到了同一起跑線上。

羅訓(xùn)就該觀點(diǎn)對(duì)記者表示,技術(shù)和知識(shí)平權(quán)的說(shuō)法并不是很準(zhǔn)確,因?yàn)橹安](méi)有系統(tǒng)性的歧視。AIGC帶來(lái)的是“易得”,本質(zhì)上是市場(chǎng)規(guī)模急劇擴(kuò)大后的成本降低。AIGC會(huì)促進(jìn)整個(gè)社會(huì)對(duì)算力和計(jì)算模式使用的轉(zhuǎn)型升級(jí),大規(guī)模提高AI使用者的生產(chǎn)效率,同時(shí)利好AI軟硬件設(shè)施生態(tài)企業(yè)。過(guò)程中,巨頭和大廠是技術(shù)進(jìn)步的先期投入者,它們?cè)谄渲芷趦?nèi)獲取回報(bào)也是合理的,因?yàn)樗鼈兏冻隽烁叩某杀?,也承?dān)了更大的風(fēng)險(xiǎn)。

汪齊齊認(rèn)為,AIGC確實(shí)帶來(lái)了一定的技術(shù)平權(quán),但技術(shù)本身是有一個(gè)價(jià)值屬性的。例如,曾經(jīng)做網(wǎng)頁(yè)可以帶來(lái)不菲的收入,隨著工具升級(jí)和模板的完善,一個(gè)漂亮網(wǎng)頁(yè)制作難度數(shù)量級(jí)地下降,但是他帶來(lái)的價(jià)值也產(chǎn)生數(shù)量級(jí)地下降。

同樣,AIGC將一個(gè)需要大量技術(shù)和知識(shí)儲(chǔ)備才能產(chǎn)生優(yōu)質(zhì)內(nèi)容的時(shí)代,帶入輕易產(chǎn)生的優(yōu)質(zhì)內(nèi)容的時(shí)代,這會(huì)讓原有定義的“優(yōu)質(zhì)內(nèi)容”的平均價(jià)值急速下降。

汪齊齊表示,AIGC是否帶來(lái)了知識(shí)平權(quán)仍然有待商榷。長(zhǎng)期來(lái)看,AIGC可能會(huì)使人們更容易獲取到真實(shí)有用的知識(shí)。但是今天,人們還處于“技術(shù)帶來(lái)了前所未有的體量的知識(shí),也同時(shí)讓篩選這些知識(shí)的可用度達(dá)到了前所未有的高成本”。

汪齊齊表示,盡管AIGC可以產(chǎn)生大量的知識(shí)和內(nèi)容,但其準(zhǔn)確性和可信度是個(gè)挑戰(zhàn),相當(dāng)部分AIGC是基于老的訓(xùn)練數(shù)據(jù),“一本正經(jīng)供應(yīng)錯(cuò)誤知識(shí)”的案例已經(jīng)有很多。目前在大量、無(wú)法辨別真?zhèn)蔚臄?shù)據(jù)和內(nèi)容的情況下,是否真正達(dá)到了知識(shí)平權(quán),是要打問(wèn)號(hào)的。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • SAM
    SAM
    +關(guān)注

    關(guān)注

    0

    文章

    115

    瀏覽量

    34296
  • ChatGPT
    +關(guān)注

    關(guān)注

    30

    文章

    1596

    瀏覽量

    10059
  • AIGC
    +關(guān)注

    關(guān)注

    1

    文章

    391

    瀏覽量

    3142
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3434

    瀏覽量

    4953

原文標(biāo)題:對(duì)話三位IEEE專家:如何理解SAM視覺(jué)大模型

文章出處:【微信號(hào):IEEE_China,微信公眾號(hào):IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    AI、量子通信與JCAP:6G時(shí)代的“三位一體“革命

    100%的覆蓋可靠性 然而,這些數(shù)字背后隱藏著更深層的挑戰(zhàn): 太空與地面的無(wú)縫連接 絕對(duì)安全的信息傳輸 厘米級(jí)的實(shí)時(shí)定位 要實(shí)現(xiàn)這些突破,僅靠單點(diǎn)技術(shù)創(chuàng)新已無(wú)法滿足需求。AI、量子通信和聯(lián)合通信與定位(JCAP)大技術(shù)的深度融合,正在構(gòu)建6G的"三位一體"核心架構(gòu)。
    的頭像 發(fā)表于 11-07 11:11 ?248次閱讀
    AI、量子通信與JCAP:6G時(shí)代的“<b class='flag-5'>三位</b>一體“革命

    廣和通發(fā)布端側(cè)情感對(duì)話模型FiboEmo-LLM

    9月,廣和通正式發(fā)布自主研發(fā)的端側(cè)情感對(duì)話模型FiboEmo-LLM。該模型專注于情感計(jì)算與自然語(yǔ)言交互融合,致力于為AI玩具、智能陪伴設(shè)備等終端場(chǎng)景提供“情感理解-情感響應(yīng)”一體化
    的頭像 發(fā)表于 09-26 13:37 ?1582次閱讀

    大規(guī)模專家并行模型在TensorRT-LLM的設(shè)計(jì)

    DeepSeek-V3 / R1 等模型采用大規(guī)模細(xì)粒度混合專家模型 (MoE) 架構(gòu),大幅提升了開(kāi)源模型的質(zhì)量。Llama 4 和 Qwen3 等新發(fā)布的開(kāi)源
    的頭像 發(fā)表于 09-06 15:21 ?892次閱讀
    大規(guī)模<b class='flag-5'>專家</b>并行<b class='flag-5'>模型</b>在TensorRT-LLM的設(shè)計(jì)

    米爾RK3576部署端側(cè)多模態(tài)多輪對(duì)話,6TOPS算力驅(qū)動(dòng)30億參數(shù)LLM

    通過(guò)硬件算力優(yōu)化與軟件棧協(xié)同,將視覺(jué)編碼、語(yǔ)言推理、對(duì)話管理大核心能力封裝為可落地的工程方案,而本文將聚焦其多輪對(duì)話的部署全流程,拆解從模型
    發(fā)表于 09-05 17:25

    格靈深瞳視覺(jué)基礎(chǔ)模型Glint-MVT的發(fā)展脈絡(luò)

    》主題演講,從熱點(diǎn)話題“世界模型”引入,介紹格靈深瞳自研視覺(jué)基礎(chǔ)模型Glint-MVT的發(fā)展脈絡(luò)和技術(shù)亮點(diǎn),講述視覺(jué)模型基座如何讓AI
    的頭像 發(fā)表于 09-05 17:13 ?1263次閱讀
    格靈深瞳<b class='flag-5'>視覺(jué)</b>基礎(chǔ)<b class='flag-5'>模型</b>Glint-MVT的發(fā)展脈絡(luò)

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】基于MOE混合專家模型的學(xué)習(xí)和思考-2

    時(shí),它的權(quán)重就會(huì)增大,而當(dāng)它的誤差大于此加權(quán)平均值時(shí),它的權(quán)重就會(huì)減小。所以,使用這種損失函數(shù)訓(xùn)練出來(lái)的模型,各專家網(wǎng)絡(luò)之間是競(jìng)爭(zhēng)關(guān)系,而不是合作關(guān)系。正是這種“競(jìng)爭(zhēng)上崗”的模式,形成了動(dòng)態(tài)加載的效果
    發(fā)表于 08-23 17:00

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】+混合專家

    :路由專家) 這種創(chuàng)新讓AI的推理過(guò)程更接近人類思維,為解決復(fù)雜問(wèn)題提供了新的思路。 共享專家宛如一知識(shí)淵博的通才,它始終參與模型的每一次運(yùn)算,就像一個(gè)穩(wěn)定的基石,為整個(gè)
    發(fā)表于 07-22 22:14

    超聲波T-SAM與C-SAM模式的區(qū)別

    本文介紹了超聲波的T-SAM與C-SAM兩種模式的區(qū)別。
    的頭像 發(fā)表于 05-21 15:26 ?1147次閱讀
    超聲波T-<b class='flag-5'>SAM</b>與C-<b class='flag-5'>SAM</b>模式的區(qū)別

    基于MindSpeed MM玩轉(zhuǎn)Qwen2.5VL多模態(tài)理解模型

    多模態(tài)理解模型是讓AI像人類一樣,通過(guò)整合多維度信息(如視覺(jué)、語(yǔ)言、聽(tīng)覺(jué)等),理解數(shù)據(jù)背后的語(yǔ)義、情感、邏輯或場(chǎng)景,從而完成推理、決策等任務(wù)。
    的頭像 發(fā)表于 04-18 09:30 ?2611次閱讀
    基于MindSpeed MM玩轉(zhuǎn)Qwen2.5VL多模態(tài)<b class='flag-5'>理解</b><b class='flag-5'>模型</b>

    蔡司CIMT2025 | 新品天團(tuán)第三位成員ZEISS ScanPort亮相 – 一鍵掃描,效率倍增!

    蔡司CIMT2025 | 新品天團(tuán)第三位成員ZEISS ScanPort亮相 – 一鍵掃描,效率倍增! ? ? 蔡司新品組團(tuán)出道 ? 您是否正在尋找一款 移動(dòng)靈活的 自動(dòng)化維光學(xué)掃描系統(tǒng) 為您提
    發(fā)表于 04-11 15:27 ?385次閱讀
    蔡司CIMT2025 | 新品天團(tuán)第<b class='flag-5'>三位</b>成員ZEISS ScanPort亮相 – 一鍵掃描,效率倍增!

    ?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析

    視覺(jué)語(yǔ)言模型(Visual Language Model, VLM)是一種結(jié)合視覺(jué)(圖像/視頻)和語(yǔ)言(文本)處理能力的多模態(tài)人工智能模型,能夠理解
    的頭像 發(fā)表于 03-17 15:32 ?7480次閱讀
    ?VLM(<b class='flag-5'>視覺(jué)</b>語(yǔ)言<b class='flag-5'>模型</b>)?詳細(xì)解析

    RFID技術(shù)三位一體開(kāi)啟智能資產(chǎn)管理新時(shí)代

    三位一體的RFID解決方案將RFID電子標(biāo)簽、手持機(jī)和讀寫器有機(jī)結(jié)合,形成完整的資產(chǎn)管理閉環(huán)。RFID電子標(biāo)簽作為數(shù)據(jù)載體,手持機(jī)提供移動(dòng)采集能力,固定讀寫器實(shí)現(xiàn)自動(dòng)化監(jiān)控,者協(xié)同工作,構(gòu)建起智能化的資產(chǎn)管理網(wǎng)絡(luò)。
    的頭像 發(fā)表于 02-21 11:29 ?578次閱讀
    RFID技術(shù)<b class='flag-5'>三位</b>一體開(kāi)啟智能資產(chǎn)管理新時(shí)代

    一文詳解視覺(jué)語(yǔ)言模型

    視覺(jué)語(yǔ)言模型(VLM)是一種多模態(tài)、生成式 AI 模型,能夠理解和處理視頻、圖像和文本。
    的頭像 發(fā)表于 02-12 11:13 ?3164次閱讀
    一文詳解<b class='flag-5'>視覺(jué)</b>語(yǔ)言<b class='flag-5'>模型</b>

    【「大模型啟示錄」閱讀體驗(yàn)】如何在客服領(lǐng)域應(yīng)用大模型

    訓(xùn)練模型如BERT、GPT等。這些模型理解自然語(yǔ)言、生成文本、處理對(duì)話等方面具有不同的能力。因此,在選擇模型時(shí),需要了解每個(gè)
    發(fā)表于 12-17 16:53

    NaVILA:加州大學(xué)與英偉達(dá)聯(lián)合發(fā)布新型視覺(jué)語(yǔ)言模型

    (VLM)是一種具備多模態(tài)生成能力的先進(jìn)AI模型。它能夠智能地處理文本、圖像以及視頻等多種提示,并通過(guò)復(fù)雜的推理過(guò)程,實(shí)現(xiàn)對(duì)這些信息的準(zhǔn)確理解和應(yīng)用。NaVILA正是基于這一原理,通過(guò)將大型語(yǔ)言模型(LLM)與
    的頭像 發(fā)表于 12-13 10:51 ?948次閱讀