水野朝阳AV片系列在线播放,日韩人妻无码中文字幕一区,日韩精品免费无码区

這一領(lǐng)先的開(kāi)放式全模態(tài)推理模型可提供更高的效率和準(zhǔn)確性，能夠?yàn)橛?jì)算機(jī)操作、文檔智能和音頻-視頻推理等智能體工作流提供動(dòng)力。

如今的 AI 智能體系統(tǒng)需要分別調(diào)用視覺(jué)、語(yǔ)音和語(yǔ)言模型 —— 而在模型間傳遞數(shù)據(jù)的過(guò)程中，不僅耗時(shí)，還會(huì)丟失上下文信息。

今日發(fā)布的 NVIDIA Nemotron 3 Nano Omni 是一款開(kāi)放式多模態(tài)模型，它將上述功能集成至一個(gè)系統(tǒng)中，使智能體能夠?qū)σ曨l、音頻、圖像和文本進(jìn)行高級(jí)推理，從而提供更快、更智能的響應(yīng)。這一出色的模型為企業(yè)和開(kāi)發(fā)者提供了一條生產(chǎn)路徑，幫助其構(gòu)建更高效且更準(zhǔn)確的多模態(tài) AI 智能體，并賦予他們完全的部署靈活性與控制權(quán)。

Nemotron 3 Nano Omni 憑借其較高的準(zhǔn)確性和成本優(yōu)勢(shì)，為開(kāi)放式多模態(tài)模型設(shè)定了新的效率邊界，并在復(fù)雜文檔智能以及視頻和音頻理解領(lǐng)域的六項(xiàng)榜單中名列前茅。

目前已采用 Nemotron 3 Nano Omni 的 AI 和軟件公司包括Aible、Applied Scientific Intelligence (ASI)、Eka Care、Foxconn、H Company、Palantir 和Pyler，同時(shí)戴爾科技、Docusign、Infosys、K-Dense、Lila、Oracle 和Zefr正在評(píng)估該模型。

H Company 首席執(zhí)行官 Gautier Cloix 表示：“要構(gòu)建實(shí)用的智能體，不能花幾秒鐘等待模型來(lái)解析屏幕。我們的智能體基于 Nemotron 3 Nano Omni 進(jìn)行構(gòu)建，可以快速解析全高清屏幕錄制內(nèi)容 —— 而這在過(guò)去是無(wú)法實(shí)現(xiàn)的。這不僅僅是速度上的提升，也改變了我們的智能體實(shí)時(shí)感知和與數(shù)字環(huán)境交互的方式。

Nemotron 3 Nano Omni 助力打造更快、更精簡(jiǎn)的多模態(tài)智能體

試想一個(gè)客戶支持 AI 智能體在處理屏幕錄制內(nèi)容的同時(shí)，還需要分析上傳的通話音頻并檢查數(shù)據(jù)日志；或是一個(gè)財(cái)務(wù) AI 智能體需要負(fù)責(zé)解析多個(gè) PDF、電子表格、圖表和語(yǔ)音筆記。如今，大多數(shù)智能體系統(tǒng)都通過(guò)獨(dú)立的視覺(jué)、語(yǔ)音和語(yǔ)言模型來(lái)完成這些任務(wù)。

這種方法會(huì)因?yàn)橹貜?fù)推理而增加延遲，導(dǎo)致不同模態(tài)之間的上下文碎片化，并隨時(shí)間推移增加成本和誤差性。
通過(guò)在其 30B-A3B 的混合專(zhuān)家模型 (MoE)架構(gòu)中結(jié)合視覺(jué)和音頻編碼器，Nemotron 3 Nano Omni 無(wú)需獨(dú)立的感知模型，從而大規(guī)模提高推理效率。它將這種效率與強(qiáng)大的多模態(tài)感知準(zhǔn)確性相結(jié)合，使 AI 系統(tǒng)在保持相同交互性能的情況下，實(shí)現(xiàn)比其他開(kāi)放式全模態(tài)模型高 9 倍的吞吐量。因此，其能夠在不犧牲響應(yīng)速度或質(zhì)量的前提下降低成本并提高可擴(kuò)展性。

在智能體系統(tǒng)中，Nemotron 3 Nano Omni 可以與專(zhuān)有云模型或其他 NVIDIA Nemotron 開(kāi)放模型，例如用于高頻執(zhí)行的 Nemotron 3 Super 或用于復(fù)雜規(guī)劃的 Nemotron 3 Ultra，同時(shí)也可結(jié)合其他供應(yīng)商的專(zhuān)有模型協(xié)同工作，來(lái)支持計(jì)算機(jī)操作、文檔智能和音頻-視頻推理等智能體工作流中的子智能體。

計(jì)算機(jī)操作智能體 ——Nemotron 3 Nano Omni 為智能體提供感知回路，幫助其在圖形用戶界面導(dǎo)航、對(duì)屏幕內(nèi)容進(jìn)行推理，并理解隨時(shí)間變化的用戶界面狀態(tài)。H Company 最新推出的由 Nemotron 3 Nano Omni 驅(qū)動(dòng)的計(jì)算機(jī)操作智能體，采用 1920×1080 像素的原生輸入分辨率，以實(shí)現(xiàn)高保真視覺(jué)推理。在對(duì) OSWorld 基準(zhǔn)測(cè)試的初步評(píng)估中，這種集成在導(dǎo)航復(fù)雜圖形界面上實(shí)現(xiàn)了重大飛躍，并利用了 Nemotron 3 Nano Omni 處理超高分辨率圖像的能力。

文檔智能 ——解析文檔、圖表、表格、屏幕截圖和混合媒體輸入，使智能體能夠連貫地推理視覺(jué)結(jié)構(gòu)和文本內(nèi)容。這對(duì)企業(yè)分析和合規(guī)性工作流至關(guān)重要。

音頻和視頻理解 ——針對(duì)客戶服務(wù)、研究和監(jiān)測(cè)工作流，Nemotron 3 Nano Omni 能夠保持音頻-視頻上下文，將所說(shuō)、所顯示和所記錄的內(nèi)容綁定到單個(gè)推理流中，而非毫無(wú)關(guān)聯(lián)的摘要。

開(kāi)放且可定制，隨處可部署

Nemotron 3 Nano Omni 發(fā)布時(shí)附帶開(kāi)放權(quán)重、數(shù)據(jù)集和訓(xùn)練技術(shù)，賦予組織對(duì)模型定制和部署方式的完全透明度與控制力。

開(kāi)發(fā)者可以使用諸如NVIDIA NeMo等工具來(lái)定制、評(píng)估和優(yōu)化特定領(lǐng)域的用例。由于 Nemotron 系列模型是開(kāi)放的，組織可以將其部署在符合監(jiān)管、主權(quán)或數(shù)據(jù)本地化要求的環(huán)境中。

過(guò)去一年中，Nemotron 3 系列 —— 包括 Nano、Super 和 Ultra 模型 —— 下載量已超 5,000 萬(wàn)次。Omni 將該系列的能力擴(kuò)展到多模態(tài)和智能體領(lǐng)域。

該模型已在Hugging Face、OpenRouter和NVIDIA 官網(wǎng)以 NVIDIA NIM 的形式上線，并通過(guò)廣泛的NVIDIA 云合作伙伴、推理平臺(tái)和云服務(wù)提供商生態(tài)系統(tǒng)提供支持。

其開(kāi)放、輕量級(jí)的架構(gòu)可支持從NVIDIA Jetson硬件、NVIDIA DGX Spark等本地系統(tǒng)到數(shù)據(jù)中心和云環(huán)境的一致性部署。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴