chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟發(fā)布Visual ChatGPT:視覺(jué)模型加持ChatGPT實(shí)現(xiàn)絲滑聊天

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:微軟亞洲研究院 ? 2023-03-16 10:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近來(lái),AI領(lǐng)域迎來(lái)各個(gè)領(lǐng)域的大突破,ChatGPT展現(xiàn)出強(qiáng)大的語(yǔ)言問(wèn)答能力和推理能力,然而作為一個(gè)自然語(yǔ)言模型,它無(wú)法處理視覺(jué)信息。

與此同時(shí),視覺(jué)基礎(chǔ)模型如Visual Transformer或者Stable Diffusion等,則展現(xiàn)出強(qiáng)大的視覺(jué)理解和生成能力。

Visual Transformer將ChatGPT作為邏輯處理中心,集成若干視覺(jué)基礎(chǔ)模型,從而達(dá)到如下效果:

視覺(jué)聊天系統(tǒng)Visual ChatGPT可以接收和發(fā)送文本和圖像

提供復(fù)雜的視覺(jué)問(wèn)答,或者視覺(jué)編輯指令,可以通過(guò)多步推理調(diào)用工具來(lái)解決復(fù)雜視覺(jué)任務(wù)

可以提供反饋,總結(jié)答案,主動(dòng)詢問(wèn)模糊的指令等

這個(gè)工作開(kāi)啟了ChatGPT借助視覺(jué)基礎(chǔ)模型作為工具,進(jìn)行視覺(jué)任務(wù)處理的研究方向。

論文鏈接:

https://arxiv.org/abs/2303.04671

開(kāi)源代碼:

https://github.com/microsoft/visual-chatgpt

論文作者:

Chenfei Wu, Shengming Yin, Weizhen Qi, Xiaodong Wang, Zecheng Tang, Nan Duan

機(jī)構(gòu):微軟亞洲研究院

模型效果

5f12d024-c378-11ed-bfe3-dac502259ad0.gif

5f706e46-c378-11ed-bfe3-dac502259ad0.png

工作流程

5fc0bab8-c378-11ed-bfe3-dac502259ad0.png

記對(duì)話,第i輪的回復(fù),是通過(guò)若干次思考調(diào)用工具的結(jié)果來(lái)最終總結(jié)出來(lái)的。我們記第i輪對(duì)話中,第j次的工具調(diào)用中間答案記作,那么

其中,是全局原則,是各個(gè)視覺(jué)基礎(chǔ)模型,是歷史會(huì)話記憶,是這一輪的用戶輸入,是這輪對(duì)話里思考和的歷史,是中間答案,是prompt manager,用于把上面各個(gè)功能轉(zhuǎn)化成合理的文本prompt,從而可以交給ChatGPT進(jìn)行處理。以下圖為例進(jìn)行講解:

5fdc300e-c378-11ed-bfe3-dac502259ad0.png

對(duì)于用戶輸入,添加于全局原則prompt,工具描述prompt,歷史會(huì)話prompt之后,送給ChatGPT進(jìn)行邏輯推理(Use VFM?)得到推理結(jié)果(就是這一次得到的GPT文本輸出)。經(jīng)過(guò)正則匹配進(jìn)行分析,如果工具調(diào)用結(jié)束,則直接提取總結(jié)輸出作為最終回復(fù),如果是需要繼續(xù)調(diào)用工具,則將提取到的工具名稱、工作參數(shù),輸入視覺(jué)基礎(chǔ)模型,從而得到,置于思考?xì)v史中,進(jìn)行下一輪推理。或者說(shuō)喂給GPT的內(nèi)容為:

第一次問(wèn)答里,第一個(gè)API

第一次問(wèn)答里,第二個(gè)API:

第一次問(wèn)答里,第三個(gè)API:

第二次問(wèn)答里,第一個(gè)API:

第二次問(wèn)答里,第二個(gè)API:

得到GPT的輸出后,正則匹配進(jìn)行工具的判斷和解析,最終決定流程。API調(diào)用歷史在每次回答后清空,其中只有最后總結(jié)性的回復(fù)被記錄進(jìn)入對(duì)話歷史

細(xì)節(jié)描述

60621eb2-c378-11ed-bfe3-dac502259ad0.png

: 系統(tǒng)原則的提示符,“Visual ChatGPT是一個(gè)可以處理廣泛語(yǔ)言和視覺(jué)任務(wù)的助手,xxxxxx”。在這個(gè)prompt的部分,以下內(nèi)容被強(qiáng)調(diào):Visual ChatGPT的角色,可以訪問(wèn)且需要盡可能使用視覺(jué)基礎(chǔ)模型,要對(duì)文件名稱非常敏感不可以捏造,可以且必須遵循嚴(yán)格的Chain-of-Thought思考鏈的格式進(jìn)行思考(不然正則匹配不出來(lái)是否使用函數(shù)和函數(shù)名稱參數(shù)),可靠性等描述。

: 對(duì)每個(gè)視覺(jué)基礎(chǔ)模型的描述,包含工具名稱,使用方法,輸入輸出格式,實(shí)例

: 用戶的輸入會(huì)被改寫,用來(lái)理解圖片和強(qiáng)制GPT思考

:對(duì)輸出的處理,鏈?zhǔn)降奈募?imaga/{Name}_{Operation}_{Prev_Name}_{Org_Name}.png",強(qiáng)制修改GPT內(nèi)容,讓GPT降低思考難度,在指代不清時(shí)二次詢問(wèn)用戶等。

Case Study

論文分析了在各個(gè)模塊,如果prompt manager設(shè)計(jì)不到位,會(huì)各自出現(xiàn)什么問(wèn)題:

608d634c-c378-11ed-bfe3-dac502259ad0.png

在中,如果不強(qiáng)調(diào)對(duì)圖片文件名的敏感,可能會(huì)發(fā)生指代錯(cuò)誤。如果不強(qiáng)調(diào)思考鏈的格式嚴(yán)格,可能正則匹配匹不上。如果不強(qiáng)調(diào)可靠性,不要基于文本上下文腦補(bǔ),可能會(huì)出現(xiàn)不讀圖片直接回答的情況。如果不強(qiáng)調(diào)可以鏈?zhǔn)绞褂霉ぞ?,則可能出現(xiàn)一口吃個(gè)大胖子而不能一步一步思考的情況。

61a8537c-c378-11ed-bfe3-dac502259ad0.png

類似的,對(duì)于工具包的描述,也應(yīng)該對(duì)名稱、功能、輸入輸出格式進(jìn)行嚴(yán)格的設(shè)計(jì)。其中,for example進(jìn)行舉例影響不大,只要前面描述足夠清楚,GPT可以理解,可以刪掉保存token長(zhǎng)度。

61b316c2-c378-11ed-bfe3-dac502259ad0.png

對(duì)于用戶輸入和工具包輸出的后處理,如圖。比較神奇的是,右上角的舉例里,用ChatGPT自己的口吻來(lái)說(shuō)一些原則(從而讓ChatGPT以為是它自己說(shuō)的,然后順著說(shuō)),以及直接讓ChatGPT說(shuō)到"Thought: Do I need a tool"繼續(xù)生成,能強(qiáng)制進(jìn)入思考鏈,從而大幅度降低思考難度。左下角的舉例里,對(duì)于鏈?zhǔn)降奈募?,?wèn)Visual ChatGPT能不能總結(jié)出來(lái)文件命名原則,基本總結(jié)正確,這說(shuō)明此種命名方法,確實(shí)可以幫助Visual ChatGPT理解文件的內(nèi)容和依賴關(guān)系,生成路徑。

有意義的啟發(fā)

開(kāi)啟了ChatGPT處理視覺(jué)任務(wù)的新大門

NLP --> Natural Language PhotoShop,自然語(yǔ)言文本描述下的圖片創(chuàng)作編輯和問(wèn)答

可以通過(guò)系統(tǒng)設(shè)計(jì)和工具包設(shè)計(jì)的Prompt,做到無(wú)監(jiān)督的工具調(diào)用,類似于zero-shot的toolformer

ChatGPT本身對(duì)仿真場(chǎng)景的能力很強(qiáng),也讀過(guò)圖片路徑和函數(shù)關(guān)系,從而善于使用基礎(chǔ)視覺(jué)模型

Prompt很重要,作為純語(yǔ)言模型,前文說(shuō)它是啥他就仿照啥,除了細(xì)致的要求,一定要多夸一夸他,是能力很強(qiáng)的處理模型,那它順著說(shuō),能力才會(huì)真的強(qiáng)

Visual ChatGPT本身是一個(gè)語(yǔ)言模型,所謂的兩方多輪對(duì)話只是一個(gè)Human: AI: 的多輪特殊形式前文的繼續(xù)生產(chǎn),所以,完全可以強(qiáng)行給前文AI: 讓ai自己說(shuō)一些東西出來(lái),是它信了是它自己說(shuō)的,這能夠極大的降低生成難度。這在本篇論文里對(duì)幾個(gè)場(chǎng)景的幫助很大。例如,用戶輸入圖片后,改寫為“Human: 上傳了一張圖片,描述為:{}。注意,這里的描述是幫助你理解圖片的,你不能基于它幻想而不調(diào)用工具。如果你理解了,就恢復(fù)收到。AI:收到?!弊⒁?,這里AI回復(fù)的收到,并不是真的GPT的生成內(nèi)容,而是我們強(qiáng)行寫入進(jìn)dialogue history memory的,而且可以發(fā)現(xiàn),AI真的相信了。另外一個(gè)點(diǎn)是,在用戶的輸入后面,挨著的應(yīng)該是GPT自己的思考內(nèi)容,如果我們借它的口,自己說(shuō)“推理信息僅自己可見(jiàn),需要在最后總結(jié)的時(shí)候把重要信息復(fù)述給讀者”,效果比在最前文的prompt里效果好很多,可能是因?yàn)榫嚯x的原因,也可能是AI自己說(shuō)出來(lái)的原因。另外,可以直接給到"Thought: do i need a tool?"去讓GPT繼續(xù)生成,從而一定進(jìn)入推理鏈,可以匹配到遠(yuǎn)處描述思維鏈格式的prompt內(nèi)容,極大的降低思考難度。

外網(wǎng)評(píng)價(jià)

630d2c42-c378-11ed-bfe3-dac502259ad0.png

631bedd6-c378-11ed-bfe3-dac502259ad0.png

63234c70-c378-11ed-bfe3-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6717

    瀏覽量

    107299
  • AI
    AI
    +關(guān)注

    關(guān)注

    89

    文章

    38004

    瀏覽量

    295963
  • ChatGPT
    +關(guān)注

    關(guān)注

    30

    文章

    1596

    瀏覽量

    10059

原文標(biāo)題:微軟發(fā)布Visual ChatGPT:視覺(jué)模型加持ChatGPT實(shí)現(xiàn)絲滑聊天

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    微軟Visual Studio 2026 發(fā)布!AI 深度融合、性能提升

    “ ?微軟發(fā)布 Visual Studio 2026 預(yù)覽版,新版本以深度融合的 AI Copilot 為核心,結(jié)合全新的 Fluent Design 界面與顯著的性能提升,旨在打造前所未有的智能
    的頭像 發(fā)表于 09-16 11:17 ?1247次閱讀
    <b class='flag-5'>微軟</b><b class='flag-5'>Visual</b> Studio 2026 <b class='flag-5'>發(fā)布</b>!AI 深度融合、性能提升

    和安信可Ai-M61模組對(duì)話?手搓一個(gè)ChatGPT 語(yǔ)音助手 #人工智能 #

    ChatGPT
    jf_31745078
    發(fā)布于 :2025年03月12日 15:56:59

    能和Ai-M61模組對(duì)話了?手搓一個(gè)ChatGPT 語(yǔ)音助手

    起猛了, 安信可的Ai-M61模組能說(shuō)話了! 超低延遲實(shí)時(shí)秒回 ,對(duì)話超的那種,先來(lái)看一段VCR: 小安派+ChatGPT語(yǔ)音實(shí)測(cè):對(duì)話滑到忘記對(duì)面是AI_ 人工智能的應(yīng)用日益廣
    的頭像 發(fā)表于 03-12 11:57 ?9686次閱讀
    能和Ai-M61模組對(duì)話了?手搓一個(gè)<b class='flag-5'>ChatGPT</b> 語(yǔ)音助手

    ??低?b class='flag-5'>發(fā)布視覺(jué)模型周界攝像機(jī)

    上周,我們發(fā)布視覺(jué)模型系列攝像機(jī),其中有大模型加持的周界系列攝像機(jī),誤報(bào)率下降90%以上。
    的頭像 發(fā)表于 03-11 18:12 ?1573次閱讀

    OpenAI嘗試減少對(duì)ChatGPT的審查

    近日,OpenAI宣布了一項(xiàng)新政策,旨在改變其訓(xùn)練人工智能模型的方式,以明確擁護(hù)“知識(shí)自由”的理念。OpenAI強(qiáng)調(diào),無(wú)論一個(gè)話題多么具有挑戰(zhàn)性或爭(zhēng)議性,都應(yīng)當(dāng)被平等對(duì)待和呈現(xiàn)。 據(jù)OpenAI表示
    的頭像 發(fā)表于 02-17 14:42 ?3606次閱讀

    ChatGPT Plus 2025新功能搶先看:如何訂閱與使用全攻略

    的交互 ChatGPT Plus作為付費(fèi)訂閱服務(wù),提供了一系列增強(qiáng)功能和優(yōu)勢(shì),讓用戶體驗(yàn)更上一層樓: 更強(qiáng)模型驅(qū)動(dòng) (GPT-4及更高版本): ?訂閱用戶可訪問(wèn)性能更強(qiáng)、回答更準(zhǔn)確、對(duì)話能力更復(fù)雜的模型(如GPT-4),處理復(fù)雜
    的頭像 發(fā)表于 02-13 19:59 ?2008次閱讀

    OpenAI免費(fèi)開(kāi)放ChatGPT搜索功能

    的優(yōu)勢(shì)。它能夠以更快的速度抓取網(wǎng)絡(luò)信息,實(shí)現(xiàn)分鐘級(jí)別的內(nèi)容解析。這對(duì)于股票、體育、財(cái)經(jīng)等需要迅速獲取最新新聞內(nèi)容的行業(yè)來(lái)說(shuō),無(wú)疑是一個(gè)巨大的福音。用戶能夠第一時(shí)間掌握行業(yè)動(dòng)態(tài),做出更加明智的決策。 此外,ChatGPT搜索還借助了大模型
    的頭像 發(fā)表于 02-06 14:35 ?797次閱讀

    OpenAI更新macOS ChatGPT應(yīng)用,推出“代理”功能實(shí)現(xiàn)無(wú)縫集成

    ”功能的推出。通過(guò)這一功能,ChatGPT能夠作為用戶的得力助手,在支持的第三方應(yīng)用程序中讀取屏幕信息,并根據(jù)上下文提供精準(zhǔn)的幫助和建議。無(wú)論是編寫代碼、記錄筆記還是處理文檔,用戶都能享受到ChatGPT帶來(lái)的智能化輔助,實(shí)現(xiàn)
    的頭像 發(fā)表于 01-02 10:49 ?925次閱讀

    OpenAI桌面版ChatGPT新增應(yīng)用協(xié)作功能

    的使用體驗(yàn)。 據(jù)悉,桌面版ChatGPT現(xiàn)已集成了多種編程和辦公應(yīng)用程序,如VS Code、Xcode、蘋果Notes、Notion和Quip等。用戶可以通過(guò)這些應(yīng)用程序與ChatGPT進(jìn)行無(wú)縫協(xié)作,實(shí)現(xiàn)自動(dòng)化
    的頭像 發(fā)表于 12-23 10:52 ?918次閱讀

    ChatGPT深度融入蘋果Mac軟件生態(tài)

    ,OpenAI推出了MacOS桌面應(yīng)用程序,使得用戶能夠在Mac上更加便捷地查看和自動(dòng)化他們的ChatGPT工作。這一桌面應(yīng)用程序不僅具備出色的兼容性和穩(wěn)定性,還提供了豐富的功能選項(xiàng),滿足了用戶多樣化的需求。 更重要的是,ChatGPT與Mac上的各類應(yīng)用程序
    的頭像 發(fā)表于 12-23 10:50 ?995次閱讀

    ChatGPT新增實(shí)時(shí)搜索與高級(jí)語(yǔ)音功能

    在OpenAI的第八天技術(shù)分享直播中,ChatGPT的搜索功能迎來(lái)了重大更新。此次更新不僅豐富了ChatGPT的功能體系,更提升了其實(shí)用性和競(jìng)爭(zhēng)力。 新增的實(shí)時(shí)搜索功能,是此次更新的亮點(diǎn)之一
    的頭像 發(fā)表于 12-17 14:08 ?907次閱讀

    OpenAI就ChatGPT宕機(jī)事件致歉

    近日,全球領(lǐng)先的AI研究機(jī)構(gòu)OpenAI遭遇了一次重大的服務(wù)中斷事件,其備受歡迎的聊天機(jī)器人ChatGPT在全球范圍內(nèi)出現(xiàn)了宕機(jī)現(xiàn)象。與此同時(shí),Sora及相關(guān)的API服務(wù)也受到了波及,無(wú)法正常運(yùn)作
    的頭像 發(fā)表于 12-16 09:47 ?1083次閱讀

    ChatGPT短暫“罷工”,云服務(wù)器還能用嗎?

    日,備受歡迎的AI聊天機(jī)器人ChatGPT突然遭遇了一次短暫的服務(wù)中斷,這讓不少用戶心生疑慮:云服務(wù)器,這個(gè)支撐起無(wú)數(shù)互聯(lián)網(wǎng)應(yīng)用的強(qiáng)大后盾,究竟還靠譜嗎?
    的頭像 發(fā)表于 12-12 11:45 ?589次閱讀

    OpenAI發(fā)布滿血版ChatGPT Pro

    科技巨頭OpenAI近期宣布了一項(xiàng)重大更新,正式推出了其備受期待的“滿血版”ChatGPT Pro。這一新版本基于全新的推理模型o1,旨在為用戶提供更為強(qiáng)大的處理能力和更高質(zhì)量的回答。 據(jù)了解
    的頭像 發(fā)表于 12-06 11:10 ?1094次閱讀

    ChatGPT日均消息量破10億,周活躍用戶超3億

    近日,OpenAI公司首席執(zhí)行官山姆?阿爾特曼(Sam Altman)宣布了一個(gè)令人振奮的消息:ChatGPT聊天機(jī)器人的日均消息發(fā)送量已經(jīng)突破了10億條大關(guān),同時(shí)其周活躍用戶數(shù)量也超過(guò)了3億
    的頭像 發(fā)表于 12-05 11:19 ?1557次閱讀