chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟發(fā)布視覺型AI新模型:Phi-3-vision

微云疏影 ? 來源:綜合整理 ? 作者:綜合整理 ? 2024-05-27 15:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

5 月 26 日消息,微軟近期推出其小語言 AI 模型新成員“Phi-3-vision”,以卓越的“視覺”處理能力著稱,能夠深度解析圖文信息并在移動設(shè)備上穩(wěn)定運(yùn)行。

據(jù)悉,Phi-3-vision 作為微軟 Phi-3 家族的首款多模態(tài)模型,繼承自 Phi-3-mini 的文本理解能力,兼具輕巧便攜特性,適用于移動平臺/嵌入式終端;模型參數(shù)規(guī)模達(dá) 42 億,遠(yuǎn)超 Phi-3-mini(3.8B),略遜于 Phi-3-small(7B),上下文長度為 128k token,訓(xùn)練時(shí)間跨度為 2024 年 2 月至 4 月。

值得關(guān)注的是,Phi-3-vision 模型的核心優(yōu)勢在于其強(qiáng)大的“圖文識別”功能,能夠準(zhǔn)確理解現(xiàn)實(shí)世界圖像的內(nèi)涵,迅速識別并提取圖片中的文字信息。

微軟強(qiáng)調(diào),Phi-3-vision 尤其適用于辦公場景,開發(fā)者針對圖表和方塊圖(Block diagram)識別進(jìn)行了專門優(yōu)化,使其能夠根據(jù)用戶輸入信息進(jìn)行推理,并生成一系列決策建議,為企業(yè)提供戰(zhàn)略參考,被譽(yù)為“媲美大型模型”的效果。

在模型訓(xùn)練環(huán)節(jié),微軟表示 Phi-3-vision 采用了“多元化圖片與文字?jǐn)?shù)據(jù)”進(jìn)行訓(xùn)練,涵蓋了一系列“精選的公共內(nèi)容”,如“教科書級”教育素材、代碼、圖文標(biāo)注數(shù)據(jù)、現(xiàn)實(shí)世界知識、圖表圖片、聊天記錄等,以保證模型輸入內(nèi)容的豐富性。此外,微軟承諾所用訓(xùn)練數(shù)據(jù)“可追溯”且不含任何個人信息,充分保障用戶隱私。

在性能對比方面,微軟提供了 Phi-3-vision 與字節(jié)跳動 Llama3-Llava-Next(8B)、微軟研究院與威斯康星大學(xué)、哥倫比亞大學(xué)聯(lián)合研發(fā)的 LlaVA-1.6(7B)以及阿里巴巴通義千問 QWEN-VL-Chat 模型等競品的對比圖表,展示了 Phi-3-vision 在多項(xiàng)測試中的優(yōu)秀表現(xiàn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6734

    瀏覽量

    107560
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39125

    瀏覽量

    299763
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3694

    瀏覽量

    51954
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    3月赴滬!Vision China 2026(上海)邀你共探機(jī)器視覺AI、機(jī)器人的融合未來

    2026年3月25-27日,亞洲機(jī)器視覺領(lǐng)域風(fēng)向標(biāo)——Vision China 2026(上海)機(jī)器視覺展,即將于上海新國際博覽中心W4&W5館震撼啟幕!本屆展會以 “
    的頭像 發(fā)表于 01-13 15:30 ?238次閱讀
    <b class='flag-5'>3</b>月赴滬!<b class='flag-5'>Vision</b> China 2026(上海)邀你共探機(jī)器<b class='flag-5'>視覺</b>與<b class='flag-5'>AI</b>、機(jī)器人的融合未來

    更理想的AI視覺芯,RV1126B系列核心板發(fā)布!

    AI視覺
    飛凌嵌入式
    發(fā)布于 :2026年01月09日 14:14:17

    瑞芯微SOC智能視覺AI處理器

    RK1126B的基礎(chǔ)上,增加了H.264/H.265視頻編碼能力的“全能視覺AI處理器,實(shí)現(xiàn)編解碼+AI分析一體化基礎(chǔ): 完全繼承了RK1126B的所有特性,包括2TOPS NPU
    發(fā)表于 12-19 13:44

    Vision China 2025(深圳)今日開幕,聚焦“VISION+AI 賦能電子制造升級”

    會展中心(寶安)9號館隆重啟幕。展會為期 3天 ,本屆展會以 “VISION+AI賦能電子制造升級” 為主題,聚焦人工智能與機(jī)器視覺技術(shù)在電子制造全產(chǎn)業(yè)鏈中的融合與創(chuàng)新,預(yù)計(jì)將吸引超過 16.5萬名 專業(yè)觀眾參與。 在人工智能加
    的頭像 發(fā)表于 10-29 14:18 ?229次閱讀

    AI模型的配置AI模型該怎么做?

    STM32可以跑AI,這個AI模型怎么搞,知識盲區(qū)
    發(fā)表于 10-14 07:14

    微軟Visual Studio 2026 發(fā)布!AI 深度融合、性能提升

    “ ?微軟發(fā)布 Visual Studio 2026 預(yù)覽版,新版本以深度融合的 AI Copilot 為核心,結(jié)合全新的 Fluent Design 界面與顯著的性能提升,旨在打造前所未有的智能
    的頭像 發(fā)表于 09-16 11:17 ?1701次閱讀
    <b class='flag-5'>微軟</b>Visual Studio 2026 <b class='flag-5'>發(fā)布</b>!<b class='flag-5'>AI</b> 深度融合、性能提升

    日本航空攜手微軟率先將AI應(yīng)用引入客艙管理

    日本航空(JAL)攜手微軟,率先將AI應(yīng)用引I入客艙管理。通過基于微軟Phi-4小型語言模型(SLM)開發(fā)的JAL-
    的頭像 發(fā)表于 07-18 11:12 ?1306次閱讀

    最新人工智能硬件培訓(xùn)AI基礎(chǔ)入門學(xué)習(xí)課程參考2025版(離線AI語音視覺識別篇)

    端側(cè)離線 AI 智能硬件作為 AI 技術(shù)的重要載體之一,憑借其無需依賴網(wǎng)絡(luò)即可實(shí)現(xiàn)智能功能的特性,在一些網(wǎng)絡(luò)條件受限或?qū)?shù)據(jù)隱私有較高要求的場景中,發(fā)揮著不可或缺的作用。本章基于CSK6大模型語音
    發(fā)表于 07-04 11:14

    首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手

    模型、通義千問、混元等多種先進(jìn)端側(cè)大模型,還包含視覺、語言、多模態(tài)等多種多樣的大模型,開發(fā)者可以通過Gen-AI Model Hub一鍵調(diào)用
    發(fā)表于 04-13 19:52

    Banana Pi 發(fā)布 BPI-AI2N &amp; BPI-AI2N Carrier,助力 AI 計(jì)算與嵌入式開發(fā)

    []() 2025年3月19日——Banana Pi 今日正式發(fā)布 BPI-AI2N & BPI-AI2N Carrier,基于瑞薩電子(Renesas)同步
    發(fā)表于 03-19 17:54

    NVIDIA 推出開放推理 AI 模型系列,助力開發(fā)者和企業(yè)構(gòu)建代理式 AI 平臺

    月 18 日 —— ?NVIDIA 今日發(fā)布具有推理功能的開源 Llama Nemotron 模型系列,旨在為開發(fā)者和企業(yè)提供業(yè)務(wù)就緒基礎(chǔ),助力構(gòu)建能夠獨(dú)立工作或以團(tuán)隊(duì)形式完成復(fù)雜任務(wù)的高級
    發(fā)表于 03-19 09:31 ?361次閱讀
    NVIDIA 推出開放推理 <b class='flag-5'>AI</b> <b class='flag-5'>模型</b>系列,助力開發(fā)者和企業(yè)構(gòu)建代理式 <b class='flag-5'>AI</b> 平臺

    Google發(fā)布最新AI模型Gemma 3

    Gemma 開放模型系列是 Google 推動實(shí)用 AI 技術(shù)普惠大眾的重要基石。上個月,Gemma 迎來了首個生日?;赝^去一年,其成果斐然:全球下載量突破 1 億,社區(qū)欣欣向榮,衍生模型超過 6 萬個1。Gemma 生態(tài)的蓬
    的頭像 發(fā)表于 03-18 09:51 ?1601次閱讀

    ??低?b class='flag-5'>發(fā)布視覺模型周界攝像機(jī)

    上周,我們發(fā)布視覺模型系列攝像機(jī),其中有大模型加持的周界系列攝像機(jī),誤報(bào)率下降90%以上。
    的頭像 發(fā)表于 03-11 18:12 ?1710次閱讀

    IBM發(fā)布全新Granite 3.2 AI模型

    Granite 3.2 是小型的 AI 模型,通過對開發(fā)人員友好的授權(quán)條款,提供推理、視覺和護(hù)欄功能。
    的頭像 發(fā)表于 03-06 16:47 ?965次閱讀

    一文詳解視覺語言模型

    視覺語言模型(VLM)是一種多模態(tài)、生成式 AI 模型,能夠理解和處理視頻、圖像和文本。
    的頭像 發(fā)表于 02-12 11:13 ?3593次閱讀
    一文詳解<b class='flag-5'>視覺</b>語言<b class='flag-5'>模型</b>