chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用代理式AI激活傳統(tǒng)計算機視覺系統(tǒng)的三種方法

NVIDIA英偉達 ? 來源:NVIDIA英偉達 ? 2025-12-01 09:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

學習利用視覺語言模型,打造從 AI 驅(qū)動的智能搜索到全自動分析的視頻解析應用。

當前的計算機視覺系統(tǒng)擅長于識別物理空間與流程中的事件,卻難以詮釋場景細節(jié)及其意義,也無法推理后續(xù)可能發(fā)生的情況。

由視覺語言模型(VLM) 驅(qū)動的代理式 AI,能夠解決這一問題。它讓團隊能夠快速、便捷地獲取關(guān)鍵的洞見與分析,并將文本描述與時空信息、以及系統(tǒng)每日產(chǎn)生的海量視覺數(shù)據(jù)無縫銜接。

以下三種方法可助力企業(yè)使用代理式 AI 激活傳統(tǒng)計算機視覺系統(tǒng):

  • 運用密集標注技術(shù),生成可搜索的視覺內(nèi)容
  • 利用詳細上下文增強系統(tǒng)警報
  • 借助AI 推理,總結(jié)復雜場景中的信息并解答疑問

利用密集標注,實現(xiàn)視覺內(nèi)容可搜索

傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(CNN) 驅(qū)動的視頻搜索工具受限于有限的訓練數(shù)據(jù)、上下文及語義理解的不足,這導致信息提煉工作必須依賴人工,且既繁瑣又耗時。CNN 通常被調(diào)優(yōu)以執(zhí)行如識別異常之類的視覺任務(wù),但缺乏將其所見轉(zhuǎn)換為文本的多模態(tài)能力。

企業(yè)可以將 VLM 直接嵌入其現(xiàn)有應用程序中,為圖像和視頻生成詳盡的標注。這些標注能在不受限于文件名或基礎(chǔ)標簽的情況下,將非結(jié)構(gòu)化內(nèi)容轉(zhuǎn)化為豐富的、可搜索的元數(shù)據(jù),從而實現(xiàn)靈活度遠勝以往的視覺搜索。

以自動化車輛檢測系統(tǒng)Uveye為例,作為全球規(guī)模最大的車輛及零部件數(shù)據(jù)集之一,它每月處理超過 7 億張高分辨率圖像。通過應用 VLM,Uveye 將這些視覺數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的報告,且能夠以高準確性與可靠性,檢測出細微的缺陷、改裝或異物,以供搜索與分析。

由 VLM 驅(qū)動的視覺理解提供了至關(guān)重要的上下文,保障了從合規(guī)、安全到質(zhì)控各環(huán)節(jié)洞察的透明與一致。Uveye 能檢測出 96% 的缺陷,比人工檢測高出 24%,這使早期干預成為可能,從而減少停機時間并控制維護成本。

Relo Metrics是一家由 AI 驅(qū)動的體育營銷評估服務(wù)商,致力于幫助品牌量化媒體投資價值并優(yōu)化支出。通過將 VLM 與計算機視覺相結(jié)合,Relo Metrics 不僅僅可以做到基礎(chǔ)的 Logo 檢測,現(xiàn)能夠精準捕捉如在比賽“絕殺球”時刻展示的場邊廣告牌等場景,并將其轉(zhuǎn)化為實時的商業(yè)價值。

這種基于環(huán)境的洞察能力,通過突顯 Logo 在關(guān)鍵高曝光時刻的出現(xiàn)時間和方式,幫助營銷人員更清晰地了解投資回報率,并找到優(yōu)化策略的途徑。例如,Stanley Black & Decker 及其旗下的 Dewalt,此前僅依賴賽季末的報告來評估贊助資產(chǎn)的表現(xiàn),這限制了決策的及時性?,F(xiàn)在通過利用 Relo Metrics 獲取實時洞察,Stanley Black & Decker 及時調(diào)整了廣告牌位置,從而挽回了價值 130 萬美元的潛在贊助媒體損失。

利用 VLM 推理能力增強計算機視覺系統(tǒng)警報

基于 CNN 的計算機視覺系統(tǒng)通常只生成類似“是或否”、“真或假”的二元的檢測警報。缺乏 VLM 的推理能力,往往會導致誤報或細節(jié)遺漏,從而在安全保障方面引發(fā)代價高昂的錯誤,并造成商業(yè)情報的缺失。VLM 無需完全取代現(xiàn)有的 CNN 視覺系統(tǒng),而是可以作為一個智能附加組件,輕松地對現(xiàn)有系統(tǒng)進行增強。通過在 CNN 系統(tǒng)之上疊加 VLM 層,系統(tǒng)不僅能標記檢測警報,還能結(jié)合場景語境對事件發(fā)生的地點、方式及原因進行復核。

在智慧城市交通管理領(lǐng)域,Linker Vision利用 VLM 驗證關(guān)鍵的城市警報,包括:交通事故、洪澇災害或暴風雨引發(fā)的樹木及電線桿倒塌。這種方式不僅降低了誤報率,還為每起事件補充了關(guān)鍵的背景信息,從而顯著提升了市政部門的實時響應效率。

當前的計算機視覺系統(tǒng)擅長于識別物理空間與流程中的事件,卻難以詮釋場景細節(jié)及其意義,也無法推理后續(xù)可能發(fā)生的情況。

由視覺語言模型(VLM) 驅(qū)動的代理式 AI,能夠解決這一問題。它讓團隊能夠快速、便捷地獲取關(guān)鍵的洞見與分析,并將文本描述與時空信息、以及系統(tǒng)每日產(chǎn)生的海量視覺數(shù)據(jù)無縫銜接。

以下三種方法可助力企業(yè)使用代理式 AI 激活傳統(tǒng)計算機視覺系統(tǒng):

運用密集標注技術(shù),生成可搜索的視覺內(nèi)容

利用詳細上下文增強系統(tǒng)警報

借助AI 推理,總結(jié)復雜場景中的信息并解答疑問

利用密集標注,實現(xiàn)視覺內(nèi)容可搜索

傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(CNN) 驅(qū)動的視頻搜索工具受限于有限的訓練數(shù)據(jù)、上下文及語義理解的不足,這導致信息提煉工作必須依賴人工,且既繁瑣又耗時。CNN 通常被調(diào)優(yōu)以執(zhí)行如識別異常之類的視覺任務(wù),但缺乏將其所見轉(zhuǎn)換為文本的多模態(tài)能力。

企業(yè)可以將 VLM 直接嵌入其現(xiàn)有應用程序中,為圖像和視頻生成詳盡的標注。這些標注能在不受限于文件名或基礎(chǔ)標簽的情況下,將非結(jié)構(gòu)化內(nèi)容轉(zhuǎn)化為豐富的、可搜索的元數(shù)據(jù),從而實現(xiàn)靈活度遠勝以往的視覺搜索。

以自動化車輛檢測系統(tǒng)Uveye為例,作為全球規(guī)模最大的車輛及零部件數(shù)據(jù)集之一,它每月處理超過 7 億張高分辨率圖像。通過應用 VLM,Uveye 將這些視覺數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的報告,且能夠以高準確性與可靠性,檢測出細微的缺陷、改裝或異物,以供搜索與分析。

由 VLM 驅(qū)動的視覺理解提供了至關(guān)重要的上下文,保障了從合規(guī)、安全到質(zhì)控各環(huán)節(jié)洞察的透明與一致。Uveye 能檢測出 96% 的缺陷,比人工檢測高出 24%,這使早期干預成為可能,從而減少停機時間并控制維護成本。

Relo Metrics是一家由 AI 驅(qū)動的體育營銷評估服務(wù)商,致力于幫助品牌量化媒體投資價值并優(yōu)化支出。通過將 VLM 與計算機視覺相結(jié)合,Relo Metrics 不僅僅可以做到基礎(chǔ)的 Logo 檢測,現(xiàn)能夠精準捕捉如在比賽“絕殺球”時刻展示的場邊廣告牌等場景,并將其轉(zhuǎn)化為實時的商業(yè)價值。

這種基于環(huán)境的洞察能力,通過突顯 Logo 在關(guān)鍵高曝光時刻的出現(xiàn)時間和方式,幫助營銷人員更清晰地了解投資回報率,并找到優(yōu)化策略的途徑。例如,Stanley Black & Decker 及其旗下的 Dewalt,此前僅依賴賽季末的報告來評估贊助資產(chǎn)的表現(xiàn),這限制了決策的及時性?,F(xiàn)在通過利用 Relo Metrics 獲取實時洞察,Stanley Black & Decker 及時調(diào)整了廣告牌位置,從而挽回了價值 130 萬美元的潛在贊助媒體損失。

利用 VLM 推理能力增強計算機視覺系統(tǒng)警報

基于 CNN 的計算機視覺系統(tǒng)通常只生成類似“是或否”、“真或假”的二元的檢測警報。缺乏 VLM 的推理能力,往往會導致誤報或細節(jié)遺漏,從而在安全保障方面引發(fā)代價高昂的錯誤,并造成商業(yè)情報的缺失。VLM 無需完全取代現(xiàn)有的 CNN 視覺系統(tǒng),而是可以作為一個智能附加組件,輕松地對現(xiàn)有系統(tǒng)進行增強。通過在 CNN 系統(tǒng)之上疊加 VLM 層,系統(tǒng)不僅能標記檢測警報,還能結(jié)合場景語境對事件發(fā)生的地點、方式及原因進行復核。

在智慧城市交通管理領(lǐng)域,Linker Vision利用 VLM 驗證關(guān)鍵的城市警報,包括:交通事故、洪澇災害或暴風雨引發(fā)的樹木及電線桿倒塌。這種方式不僅降低了誤報率,還為每起事件補充了關(guān)鍵的背景信息,從而顯著提升了市政部門的實時響應效率。

Linker Vision的代理式 AI 架構(gòu)能自動分析超過 50,000 路多樣化的智慧城市攝像頭視頻流,以實現(xiàn)跨部門的協(xié)同整治。當事件發(fā)生時,該系統(tǒng)可協(xié)調(diào)如交通管制、公共事業(yè)及急救響應等多團隊展開聯(lián)合行動。憑借同時查詢所有攝像頭流的能力,系統(tǒng)能迅速將觀察到的現(xiàn)象轉(zhuǎn)化為深刻洞察,給出下一步最佳行動的具體建議。

基于代理式 AI 的復雜場景自動解析

代理式 AI系統(tǒng)能夠處理視頻流、音頻、文本、視頻及傳感器數(shù)據(jù)等多種模態(tài)的信息,并能對復雜查詢進行推理與回答,從而實現(xiàn)對復雜場景的自動化分析。該功能的實現(xiàn),需結(jié)合 VLM、推理模型、大語言模型 (LLM)、檢索增強生成 (RAG)、計算機視覺和語音轉(zhuǎn)錄等多種技術(shù)。

將 VLM 直接集成到現(xiàn)有計算機視覺工作流中,雖能驗證關(guān)鍵時刻的短視頻片段,但其能力受限于單模型一次可處理的視覺token數(shù)量,故而無法理解更長時間周期與外部知識構(gòu)成的上下文,最終只能提供表面層次的答案。

相比之下,基于代理式 AI 構(gòu)建的完整架構(gòu),則能對冗長、多路的視頻檔案進行可擴展且精確的處理,實現(xiàn)超越表面理解的更深層、準確和可靠的洞察。此外,該系統(tǒng)還適用于根本原因分析,或處理冗長巡檢視頻以生成帶時間戳洞察的報告。

Levatas利用移動機器人與自主系統(tǒng),為關(guān)鍵基礎(chǔ)設(shè)施開發(fā)視覺巡檢解決方案,致力于提升電力變電站、燃料站、鐵路調(diào)車場與物流中心等關(guān)鍵基礎(chǔ)設(shè)施資產(chǎn)的安全性、可靠性與性能。基于 VLM,Levatas 構(gòu)建了視頻分析 AI 智能體,可自動審查巡檢影像并起草詳細報告,從而極大地優(yōu)化了這一傳統(tǒng)上依賴人工的耗時流程。 Levatas 通過將其 AI 與 Skydio X10 設(shè)備集成,為 American Electric Power (AEP) 簡化電力基礎(chǔ)設(shè)施巡檢。該方案使 AEP 能夠自主巡檢電線桿、精準識別熱缺陷并檢測設(shè)備損壞。一旦發(fā)現(xiàn)問題,系統(tǒng)會立即向 AEP 團隊發(fā)送警報,確??焖夙憫c問題解決,從而保障可靠、清潔且經(jīng)濟高效的能源供應。

Eklipse 是一款利用 VLM 驅(qū)動代理的 AI 游戲高光工具,它能通過為直播流添加字幕和索引元數(shù)據(jù),實現(xiàn)快速查詢、總結(jié)并生成精美高光片段,整個過程僅需數(shù)分鐘,效率高達傳統(tǒng)方案的 10 倍,徹底革新了內(nèi)容消費體驗。

基于 NVIDIA 技術(shù)構(gòu)建視頻智能體

開發(fā)人員可運用NVCLIP、NVIDIA Cosmos Reason與Nemotron Nano V2等多模態(tài) VLM,構(gòu)建富含元數(shù)據(jù)的索引,以此實現(xiàn)高級搜索與推理功能。

開發(fā)人員若要將 VLM 集成到計算機視覺應用中,可使用NVIDIA 用于視頻搜索及總結(jié)的Blueprint (VSS)中的 event reviewer 功能。VSS Blueprint 是NVIDIA Metropolis 平臺的一部分。

為實現(xiàn)智能運營、更豐富的視頻分析及實時流程合規(guī)性,并能隨需求擴展,VSS Blueprint提供了定制化方案:它支持開發(fā)人員構(gòu)建直接訪問 VLM 的 AI 智能體,或?qū)?VLM 與 LLM、RAG 和計算機視覺模型結(jié)合使用,以應對更復雜的視頻查詢與總結(jié)任務(wù)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5494

    瀏覽量

    109016
  • AI
    AI
    +關(guān)注

    關(guān)注

    89

    文章

    37990

    瀏覽量

    295904
  • 計算機視覺
    +關(guān)注

    關(guān)注

    9

    文章

    1714

    瀏覽量

    47443

原文標題:AI On:代理式 AI 在計算機視覺中的三大應用

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+可期之變:從AI硬件到AI濕件

    的基本邏輯門 所謂生物計算是一個新興的交叉學科領(lǐng)域,其研究靈感來源于自然界生命系統(tǒng)的神奇功能。它將生物學和計算機科學的原理及方法相結(jié)合,旨在利用生物分子、生物
    發(fā)表于 09-06 19:12

    代理式 AI 重構(gòu) EDA:從對話助手到虛擬工程師

    電子發(fā)燒友網(wǎng)報道(文?/?吳子鵬)代理式?AI(Agentic AI)作為?AI?領(lǐng)域的新興方向,是一能夠通過自主感知、推理、規(guī)劃與執(zhí)行,
    的頭像 發(fā)表于 08-28 07:54 ?2810次閱讀

    代理式AIAI智能體在不同行業(yè)中的實際應用

    代理式 AI 的時代已經(jīng)到來。如今,代理式 AI 已經(jīng)驅(qū)動應用邁向深度場景融合與規(guī)?;涞?。這波演進浪潮標志著 AI 能力向自主執(zhí)行的躍遷。
    的頭像 發(fā)表于 07-28 14:28 ?974次閱讀

    NVIDIA全棧加速代理式AI應用落地

    在近期舉辦的 AWS 中國峰會上,NVIDIA 聚焦于“NVIDIA 全棧加速代理式 AI 應用落地”,深入探討了代理式 AI (Agentic A
    的頭像 發(fā)表于 07-14 11:41 ?1029次閱讀

    NVIDIA攜手微軟加速代理式AI發(fā)展

    代理式 AI 正在重新定義科學探索,推動各行各業(yè)的研究突破和創(chuàng)新發(fā)展。NVIDIA 和微軟正通過深化合作提供先進的技術(shù),從云到 PC 加速代理式 AI 應用的發(fā)展。
    的頭像 發(fā)表于 05-27 14:03 ?734次閱讀

    基于代理式AI建立網(wǎng)絡(luò)安全防御體系

    NVIDIA AI 安全棧為先進的代理式系統(tǒng)提供信任、控制和管理支持。
    的頭像 發(fā)表于 05-07 14:29 ?811次閱讀

    精選好文!噪聲系數(shù)測量的三種方法

    本文介紹了測量噪聲系數(shù)的三種方法:增益法、Y系數(shù)法和噪聲系數(shù)測試儀法。這三種方法的比較以表格的形式給出。 在無線通信系統(tǒng)中,噪聲系數(shù)(NF)或者相對應的噪聲因數(shù)(F)定義了噪聲性能和對接
    發(fā)表于 05-07 10:18

    英偉達GTC2025亮點:Oracle與NVIDIA合作助力企業(yè)加速代理式AI推理

    Oracle 數(shù)據(jù)庫與 NVIDIA AI 相集成,使企業(yè)能夠更輕松、快捷地采用代理式 AI Oracle 和 NVIDIA 宣布,NVIDIA 加速計算和推理軟件與 Oracle 的
    的頭像 發(fā)表于 03-21 12:01 ?1155次閱讀
    英偉達GTC2025亮點:Oracle與NVIDIA合作助力企業(yè)加速<b class='flag-5'>代理式</b><b class='flag-5'>AI</b>推理

    Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速計算和推理軟件與 Oracle 的 AI 基礎(chǔ)設(shè)施以及生成式 AI 服務(wù)首次實現(xiàn)集成,以幫助全球企業(yè)組織加速創(chuàng)建代理式
    發(fā)表于 03-19 15:24 ?466次閱讀
    Oracle 與 NVIDIA 合作助力企業(yè)加速<b class='flag-5'>代理式</b> <b class='flag-5'>AI</b> 推理

    NVIDIA 宣布推出 DGX Spark 個人 AI 計算機

    臺式超級計算機由 NVIDIA Grace Blackwell 驅(qū)動,為開發(fā)者、研究人員和數(shù)據(jù)科學家提供加速 AI 功能;系統(tǒng)由頭部計算機制造商(包括華碩、Dell Technolog
    發(fā)表于 03-19 09:59 ?500次閱讀
       NVIDIA 宣布推出 DGX Spark 個人 <b class='flag-5'>AI</b> <b class='flag-5'>計算機</b>

    英飛凌邊緣AI平臺通過Ultralytics YOLO模型增加對計算機視覺的支持

    計算機視覺的支持,擴大了當前對音頻、雷達和其他時間序列信號數(shù)據(jù)的支持范圍。在增加這項支持后,該平臺將能夠用于開發(fā)低功耗、低內(nèi)存的邊緣AI視覺模型。這將給諸多應用領(lǐng)域的機器學習開發(fā)人員
    的頭像 發(fā)表于 03-11 15:11 ?647次閱讀
    英飛凌邊緣<b class='flag-5'>AI</b>平臺通過Ultralytics YOLO模型增加對<b class='flag-5'>計算機</b><b class='flag-5'>視覺</b>的支持

    AI Agent 應用與項目實戰(zhàn)》閱讀心得2——客服機器人、AutoGen框架 、生成式代理

    及時處理。 第5章的斯坦福AI小鎮(zhèn)項目對生成式代理技術(shù)做出了開創(chuàng)性的探索。該項目的核心是將LLM與計算交互代理相結(jié)合,構(gòu)建了一個具有記憶、反思、規(guī)劃能力的智能體
    發(fā)表于 02-25 21:59

    Arm KleidiCV與OpenCV集成助力移動端計算機視覺性能優(yōu)化

    生成式及多模態(tài)人工智能 (AI) 工作負載的廣泛增長,推動了對計算機視覺 (CV) 技術(shù)日益高漲的需求。此類技術(shù)能夠解釋并分析源自現(xiàn)實世界的視覺信息,并可應用于人臉識別、照片分類、濾鏡
    的頭像 發(fā)表于 02-24 10:15 ?866次閱讀

    NVIDIA與合作伙伴推出代理式AI Blueprint

    開發(fā)者現(xiàn)在可以使用全新 NVIDIA AI Blueprint 構(gòu)建和部署具備推理、規(guī)劃和行動能力的定制化 AI 智能體。這些藍圖囊括了 NVIDIA NIM 微服務(wù)、NVIDIA NeMo、以及領(lǐng)先提供商的代理式
    的頭像 發(fā)表于 01-09 11:08 ?1005次閱讀

    云端超級計算機使用教程

    云端超級計算機是一基于云計算的高性能計算服務(wù),它將大量計算資源和存儲資源集中在一起,通過網(wǎng)絡(luò)向用戶提供按需的
    的頭像 發(fā)表于 12-17 10:19 ?900次閱讀