chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟發(fā)布Visual ChatGPT:視覺模型加持ChatGPT實(shí)現(xiàn)絲滑聊天

深度學(xué)習(xí)自然語言處理 ? 來源:微軟亞洲研究院 ? 2023-03-16 10:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近來,AI領(lǐng)域迎來各個(gè)領(lǐng)域的大突破,ChatGPT展現(xiàn)出強(qiáng)大的語言問答能力和推理能力,然而作為一個(gè)自然語言模型,它無法處理視覺信息。

與此同時(shí),視覺基礎(chǔ)模型如Visual Transformer或者Stable Diffusion等,則展現(xiàn)出強(qiáng)大的視覺理解和生成能力。

Visual Transformer將ChatGPT作為邏輯處理中心,集成若干視覺基礎(chǔ)模型,從而達(dá)到如下效果:

視覺聊天系統(tǒng)Visual ChatGPT可以接收和發(fā)送文本和圖像

提供復(fù)雜的視覺問答,或者視覺編輯指令,可以通過多步推理調(diào)用工具來解決復(fù)雜視覺任務(wù)

可以提供反饋,總結(jié)答案,主動(dòng)詢問模糊的指令等

這個(gè)工作開啟了ChatGPT借助視覺基礎(chǔ)模型作為工具,進(jìn)行視覺任務(wù)處理的研究方向。

論文鏈接:

https://arxiv.org/abs/2303.04671

開源代碼:

https://github.com/microsoft/visual-chatgpt

論文作者:

Chenfei Wu, Shengming Yin, Weizhen Qi, Xiaodong Wang, Zecheng Tang, Nan Duan

機(jī)構(gòu):微軟亞洲研究院

模型效果

5f12d024-c378-11ed-bfe3-dac502259ad0.gif

5f706e46-c378-11ed-bfe3-dac502259ad0.png

工作流程

5fc0bab8-c378-11ed-bfe3-dac502259ad0.png

記對(duì)話,第i輪的回復(fù),是通過若干次思考調(diào)用工具的結(jié)果來最終總結(jié)出來的。我們記第i輪對(duì)話中,第j次的工具調(diào)用中間答案記作,那么

其中,是全局原則,是各個(gè)視覺基礎(chǔ)模型,是歷史會(huì)話記憶,是這一輪的用戶輸入,是這輪對(duì)話里思考和的歷史,是中間答案,是prompt manager,用于把上面各個(gè)功能轉(zhuǎn)化成合理的文本prompt,從而可以交給ChatGPT進(jìn)行處理。以下圖為例進(jìn)行講解:

5fdc300e-c378-11ed-bfe3-dac502259ad0.png

對(duì)于用戶輸入,添加于全局原則prompt,工具描述prompt,歷史會(huì)話prompt之后,送給ChatGPT進(jìn)行邏輯推理(Use VFM?)得到推理結(jié)果(就是這一次得到的GPT文本輸出)。經(jīng)過正則匹配進(jìn)行分析,如果工具調(diào)用結(jié)束,則直接提取總結(jié)輸出作為最終回復(fù),如果是需要繼續(xù)調(diào)用工具,則將提取到的工具名稱、工作參數(shù),輸入視覺基礎(chǔ)模型,從而得到,置于思考?xì)v史中,進(jìn)行下一輪推理?;蛘哒f喂給GPT的內(nèi)容為:

第一次問答里,第一個(gè)API

第一次問答里,第二個(gè)API:

第一次問答里,第三個(gè)API:

第二次問答里,第一個(gè)API:

第二次問答里,第二個(gè)API:

得到GPT的輸出后,正則匹配進(jìn)行工具的判斷和解析,最終決定流程。API調(diào)用歷史在每次回答后清空,其中只有最后總結(jié)性的回復(fù)被記錄進(jìn)入對(duì)話歷史

細(xì)節(jié)描述

60621eb2-c378-11ed-bfe3-dac502259ad0.png

: 系統(tǒng)原則的提示符,“Visual ChatGPT是一個(gè)可以處理廣泛語言和視覺任務(wù)的助手,xxxxxx”。在這個(gè)prompt的部分,以下內(nèi)容被強(qiáng)調(diào):Visual ChatGPT的角色,可以訪問且需要盡可能使用視覺基礎(chǔ)模型,要對(duì)文件名稱非常敏感不可以捏造,可以且必須遵循嚴(yán)格的Chain-of-Thought思考鏈的格式進(jìn)行思考(不然正則匹配不出來是否使用函數(shù)和函數(shù)名稱參數(shù)),可靠性等描述。

: 對(duì)每個(gè)視覺基礎(chǔ)模型的描述,包含工具名稱,使用方法,輸入輸出格式,實(shí)例

: 用戶的輸入會(huì)被改寫,用來理解圖片和強(qiáng)制GPT思考

:對(duì)輸出的處理,鏈?zhǔn)降奈募?imaga/{Name}_{Operation}_{Prev_Name}_{Org_Name}.png",強(qiáng)制修改GPT內(nèi)容,讓GPT降低思考難度,在指代不清時(shí)二次詢問用戶等。

Case Study

論文分析了在各個(gè)模塊,如果prompt manager設(shè)計(jì)不到位,會(huì)各自出現(xiàn)什么問題:

608d634c-c378-11ed-bfe3-dac502259ad0.png

在中,如果不強(qiáng)調(diào)對(duì)圖片文件名的敏感,可能會(huì)發(fā)生指代錯(cuò)誤。如果不強(qiáng)調(diào)思考鏈的格式嚴(yán)格,可能正則匹配匹不上。如果不強(qiáng)調(diào)可靠性,不要基于文本上下文腦補(bǔ),可能會(huì)出現(xiàn)不讀圖片直接回答的情況。如果不強(qiáng)調(diào)可以鏈?zhǔn)绞褂霉ぞ?,則可能出現(xiàn)一口吃個(gè)大胖子而不能一步一步思考的情況。

61a8537c-c378-11ed-bfe3-dac502259ad0.png

類似的,對(duì)于工具包的描述,也應(yīng)該對(duì)名稱、功能、輸入輸出格式進(jìn)行嚴(yán)格的設(shè)計(jì)。其中,for example進(jìn)行舉例影響不大,只要前面描述足夠清楚,GPT可以理解,可以刪掉保存token長(zhǎng)度。

61b316c2-c378-11ed-bfe3-dac502259ad0.png

對(duì)于用戶輸入和工具包輸出的后處理,如圖。比較神奇的是,右上角的舉例里,用ChatGPT自己的口吻來說一些原則(從而讓ChatGPT以為是它自己說的,然后順著說),以及直接讓ChatGPT說到"Thought: Do I need a tool"繼續(xù)生成,能強(qiáng)制進(jìn)入思考鏈,從而大幅度降低思考難度。左下角的舉例里,對(duì)于鏈?zhǔn)降奈募瑔朧isual ChatGPT能不能總結(jié)出來文件命名原則,基本總結(jié)正確,這說明此種命名方法,確實(shí)可以幫助Visual ChatGPT理解文件的內(nèi)容和依賴關(guān)系,生成路徑。

有意義的啟發(fā)

開啟了ChatGPT處理視覺任務(wù)的新大門

NLP --> Natural Language PhotoShop,自然語言文本描述下的圖片創(chuàng)作編輯和問答

可以通過系統(tǒng)設(shè)計(jì)和工具包設(shè)計(jì)的Prompt,做到無監(jiān)督的工具調(diào)用,類似于zero-shot的toolformer

ChatGPT本身對(duì)仿真場(chǎng)景的能力很強(qiáng),也讀過圖片路徑和函數(shù)關(guān)系,從而善于使用基礎(chǔ)視覺模型

Prompt很重要,作為純語言模型,前文說它是啥他就仿照啥,除了細(xì)致的要求,一定要多夸一夸他,是能力很強(qiáng)的處理模型,那它順著說,能力才會(huì)真的強(qiáng)

Visual ChatGPT本身是一個(gè)語言模型,所謂的兩方多輪對(duì)話只是一個(gè)Human: AI: 的多輪特殊形式前文的繼續(xù)生產(chǎn),所以,完全可以強(qiáng)行給前文AI: 讓ai自己說一些東西出來,是它信了是它自己說的,這能夠極大的降低生成難度。這在本篇論文里對(duì)幾個(gè)場(chǎng)景的幫助很大。例如,用戶輸入圖片后,改寫為“Human: 上傳了一張圖片,描述為:{}。注意,這里的描述是幫助你理解圖片的,你不能基于它幻想而不調(diào)用工具。如果你理解了,就恢復(fù)收到。AI:收到?!弊⒁猓@里AI回復(fù)的收到,并不是真的GPT的生成內(nèi)容,而是我們強(qiáng)行寫入進(jìn)dialogue history memory的,而且可以發(fā)現(xiàn),AI真的相信了。另外一個(gè)點(diǎn)是,在用戶的輸入后面,挨著的應(yīng)該是GPT自己的思考內(nèi)容,如果我們借它的口,自己說“推理信息僅自己可見,需要在最后總結(jié)的時(shí)候把重要信息復(fù)述給讀者”,效果比在最前文的prompt里效果好很多,可能是因?yàn)榫嚯x的原因,也可能是AI自己說出來的原因。另外,可以直接給到"Thought: do i need a tool?"去讓GPT繼續(xù)生成,從而一定進(jìn)入推理鏈,可以匹配到遠(yuǎn)處描述思維鏈格式的prompt內(nèi)容,極大的降低思考難度。

外網(wǎng)評(píng)價(jià)

630d2c42-c378-11ed-bfe3-dac502259ad0.png

631bedd6-c378-11ed-bfe3-dac502259ad0.png

63234c70-c378-11ed-bfe3-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6684

    瀏覽量

    105673
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    34998

    瀏覽量

    278685
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1589

    瀏覽量

    9030

原文標(biāo)題:微軟發(fā)布Visual ChatGPT:視覺模型加持ChatGPT實(shí)現(xiàn)絲滑聊天

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    和安信可Ai-M61模組對(duì)話?手搓一個(gè)ChatGPT 語音助手 #人工智能 #

    ChatGPT
    jf_31745078
    發(fā)布于 :2025年03月12日 15:56:59

    能和Ai-M61模組對(duì)話了?手搓一個(gè)ChatGPT 語音助手

    起猛了, 安信可的Ai-M61模組能說話了! 超低延遲實(shí)時(shí)秒回 ,對(duì)話超的那種,先來看一段VCR: 小安派+ChatGPT語音實(shí)測(cè):對(duì)話滑到忘記對(duì)面是AI_ 人工智能的應(yīng)用日益廣
    的頭像 發(fā)表于 03-12 11:57 ?1025次閱讀
    能和Ai-M61模組對(duì)話了?手搓一個(gè)<b class='flag-5'>ChatGPT</b> 語音助手

    OpenAI嘗試減少對(duì)ChatGPT的審查

    近日,OpenAI宣布了一項(xiàng)新政策,旨在改變其訓(xùn)練人工智能模型的方式,以明確擁護(hù)“知識(shí)自由”的理念。OpenAI強(qiáng)調(diào),無論一個(gè)話題多么具有挑戰(zhàn)性或爭(zhēng)議性,都應(yīng)當(dāng)被平等對(duì)待和呈現(xiàn)。 據(jù)OpenAI表示
    的頭像 發(fā)表于 02-17 14:42 ?1356次閱讀

    OpenAI免費(fèi)開放ChatGPT搜索功能

    的優(yōu)勢(shì)。它能夠以更快的速度抓取網(wǎng)絡(luò)信息,實(shí)現(xiàn)分鐘級(jí)別的內(nèi)容解析。這對(duì)于股票、體育、財(cái)經(jīng)等需要迅速獲取最新新聞內(nèi)容的行業(yè)來說,無疑是一個(gè)巨大的福音。用戶能夠第一時(shí)間掌握行業(yè)動(dòng)態(tài),做出更加明智的決策。 此外,ChatGPT搜索還借助了大模型
    的頭像 發(fā)表于 02-06 14:35 ?491次閱讀

    OpenAI發(fā)布滿血版ChatGPT Pro

    科技巨頭OpenAI近期宣布了一項(xiàng)重大更新,正式推出了其備受期待的“滿血版”ChatGPT Pro。這一新版本基于全新的推理模型o1,旨在為用戶提供更為強(qiáng)大的處理能力和更高質(zhì)量的回答。 據(jù)了解
    的頭像 發(fā)表于 12-06 11:10 ?802次閱讀

    ChatGPT:怎樣打造智能客服體驗(yàn)的重要工具?

    ChatGPT作為智能對(duì)話生成模型,可以幫助打造智能客服體驗(yàn)的重要工具。以下是一些方法和步驟:1.數(shù)據(jù)收集和準(zhǔn)備:收集和整理與客服相關(guān)的數(shù)據(jù),包括常見問題、回答示例、客戶對(duì)話記錄等。這將用于訓(xùn)練
    的頭像 發(fā)表于 11-01 11:12 ?431次閱讀
    <b class='flag-5'>ChatGPT</b>:怎樣打造智能客服體驗(yàn)的重要工具?

    如何提升 ChatGPT 的響應(yīng)速度

    提升 ChatGPT 的響應(yīng)速度是一個(gè)涉及多個(gè)層面的復(fù)雜問題。以下是一些可能的方法和策略,可以幫助提高 ChatGPT 的響應(yīng)速度: 優(yōu)化算法 : 并行處理 :通過并行處理技術(shù),可以讓多個(gè)計(jì)算任務(wù)
    的頭像 發(fā)表于 10-25 17:39 ?1562次閱讀

    怎樣搭建基于 ChatGPT聊天系統(tǒng)

    搭建一個(gè)基于ChatGPT聊天系統(tǒng)是一個(gè)涉及多個(gè)步驟的過程,包括理解ChatGPT的API、設(shè)計(jì)用戶界面、處理數(shù)據(jù)和集成ChatGPT模型
    的頭像 發(fā)表于 10-25 16:23 ?1010次閱讀

    ChatGPT 與傳統(tǒng)聊天機(jī)器人的比較

    隨著人工智能技術(shù)的飛速發(fā)展,聊天機(jī)器人已經(jīng)成為我們?nèi)粘I钪胁豢苫蛉钡囊徊糠帧暮?jiǎn)單的客服助手到復(fù)雜的個(gè)人助理,這些虛擬助手正在逐漸改變我們與技術(shù)的互動(dòng)方式。在眾多聊天機(jī)器人中,ChatGPT無疑是
    的頭像 發(fā)表于 10-25 16:16 ?1231次閱讀

    ChatGPT 適合哪些行業(yè)

    。 客戶服務(wù)行業(yè) 自動(dòng)化客服 :ChatGPT可以作為聊天機(jī)器人,提供24/7的客戶支持,處理常見問題和查詢。 個(gè)性化服務(wù) :通過分析客戶的語言習(xí)慣和偏好,ChatGPT可以提供更加個(gè)性化的服務(wù)體驗(yàn)。 情感分析 :
    的頭像 發(fā)表于 10-25 16:11 ?978次閱讀

    如何使用 ChatGPT 進(jìn)行內(nèi)容創(chuàng)作

    ChatGPT平臺(tái)。 選擇模型ChatGPT目前支持GPT3.5和GPT4兩個(gè)模型。根據(jù)創(chuàng)作需求,選擇合適的模型。一般來說,GPT4
    的頭像 發(fā)表于 10-25 16:08 ?994次閱讀

    華納云:ChatGPT 登陸 Windows

    ChatGPT 現(xiàn)已在 Windows 上推出。 今天,OpenAI宣布已開始預(yù)覽其 AI 聊天機(jī)器人平臺(tái)ChatGPT的專用 Windows 應(yīng)用程序。 OpenAI 表示, ChatGPT
    的頭像 發(fā)表于 10-18 15:50 ?521次閱讀

    Meta人工智能聊天機(jī)器人進(jìn)軍新市場(chǎng),挑戰(zhàn)ChatGPT

    Meta近日宣布,其人工智能聊天機(jī)器人將進(jìn)軍21個(gè)新市場(chǎng),與OpenAI的ChatGPT展開激烈競(jìng)爭(zhēng)。
    的頭像 發(fā)表于 10-11 16:29 ?633次閱讀

    OpenAI承認(rèn)正研發(fā)ChatGPT文本水印

    的識(shí)別效果并不理想。而且因?yàn)槎嘀仡檻]OpenAI尚未正式發(fā)布這項(xiàng)工具。 據(jù)悉,OpenAI的這個(gè)識(shí)別工具本質(zhì)上是在文字中創(chuàng)建一個(gè)不可見的水??;但是只專注于檢測(cè)來自 ChatGPT生成的文字,而且其他大模型的文字識(shí)別并不擅長(zhǎng)。但是
    的頭像 發(fā)表于 08-05 15:56 ?1278次閱讀

    模型LLM與ChatGPT的技術(shù)原理

    與機(jī)器的交互方式。這些技術(shù)通過深度學(xué)習(xí)和自然語言生成(Natural Language Generation, NLG)的結(jié)合,實(shí)現(xiàn)了對(duì)復(fù)雜語言任務(wù)的高效處理。本文將深入探討大模型LLM和ChatGPT的技術(shù)原理,并通過代碼示例
    的頭像 發(fā)表于 07-10 10:38 ?2049次閱讀