chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

【AI簡報20230522期】ChatGPT App 來了!谷歌大模型PaLM 2細(xì)節(jié)遭曝光

RTThread物聯(lián)網(wǎng)操作系統(tǒng) ? 來源:未知 ? 2023-05-22 22:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

aAI 簡報 20230522期

1. ChatGPT App 來了!

原文:https://mp.weixin.qq.com/s/aWBhq8Ff3XoOK4Yre8Qhxg

兩個月前,在 ChatGPT 相繼公開 API、帶來「插件功能」之際,我們明顯感知到了 GPT 正在以前所未有的速度成為人工智能時代的 Windows,AI 發(fā)展也正處于 iPhone 4 時刻。

當(dāng)下,ChatGPT 的進(jìn)度再下一城,其自身真正迎來了 iPhone 時刻。

今天凌晨,OpenAI 在美國發(fā)布了一款適用于 iOS 客戶端的免費 ChatGPT App,這意味著很多用戶隨時隨地都能訪問這款 AI 聊天機器人。

該 App 不僅基于 Whisper AI 語音識別模型提供語音輸入支持,還可以與網(wǎng)頁版 AI 助手 ChatGPT 同步聊天記錄。這也是 OpenAI 首次將 ChatGPT 引入官方移動客戶端。

不過,有些遺憾的是,該 App 目前僅限于美國地區(qū)用戶使用。OpenAI 稱未來幾周內(nèi)會逐步擴展到其他國家/地區(qū),也會“很快”推出適用于 Android 設(shè)備的 ChatGPT 應(yīng)用程序。

從功能上來看,ChatGPT App 和網(wǎng)頁版應(yīng)用程序一樣,作為一款 AI 聊天機器人,可以直接對它提問,由此,不同行業(yè)的不同用戶能夠通過它得到自己想要代碼、郵件模版、文本建議等答案,

從使用流程上來看,用戶首先也要有 OpenAI 賬號登錄 ChatGPT App 后,才能正常使用。與此同時,由于 ChatGPT 的互動回應(yīng)等 AI 處理操作是在 OpenAI 服務(wù)器上進(jìn)行,因此需要聯(lián)網(wǎng)才能用。

108790d0-f8ab-11ed-90ce-dac502259ad0.png

OpenAI 在官方公告中還指出,ChatGPT Plus 訂閱者可以擁有和網(wǎng)頁版類似的功能,如獨家訪問 GPT-4 的功能、“提前訪問”新功能以及有更快的響應(yīng)時間。

值得一提的是,ChatGPT Plus 服務(wù)最早是在今年 2 月推出,每月費用是 20 美元,包括即使在高峰期也能訪問 ChatGPT。

在 iOS 端 ChatGPT App 上線的第一時間,在不少人持以好奇的時候,國外工具分析平臺 Emerge Tools 率先對這款 App 進(jìn)行了拆解分析,在 Twitter 上為我們揭曉了 ChatGPT iOS 應(yīng)用程序是如何制作的。

Emerge Tools 表示,ChatGPT iOS App 的整體安裝大小為 41.9 MB,結(jié)構(gòu)相當(dāng)簡單。以下是 X-Ray 樹狀圖,看不太清楚的小伙伴,也可以通過 Emerge Tools 官網(wǎng)(https://www.emergetools.com/app/example/ios/chatgpt)查看 ChatGPT App 的模塊組成。10dd7900-f8ab-11ed-90ce-dac502259ad0.png

Emerge Tools 稱:ChatGPT 沒有鏈接任何動態(tài)框架,這樣有助于保持 App 的體積小。通過解析,我們可以看到一些靜態(tài)鏈接的模塊,譬如:

@mixpanel——用于分析

@datadoghq——用于記錄

@getsentry——用于性能監(jiān)控

@RevenueCat——用于付款

@auth0——用于身份驗證

+ 其他

另外,Emerge Tools 還使用了其自己的開源分析工具 ETTrace(https://github.com/emergeTools/ettrace)分析了該 App 的啟動過程。其認(rèn)為,「該 App 整體啟動時間非???,實際上只初始化了幾個包含的框架,沒有明顯的瓶頸」。同時,Emerge Tools 稱,看起來該應(yīng)用程序只是轉(zhuǎn)發(fā)了與 OpenAI 的服務(wù)器之間的查詢/響應(yīng)。

2. 幾行代碼安裝,免費做圖無上限:Stability AI公布DreamStudio開源版本

原文:https://mp.weixin.qq.com/s/WiuD9XcN4TCDhpBh7fXLjw

自從文本到圖像開源模型 Stable Diffusion 最初版本發(fā)布以來,DreamStudio 一直是 Stability AI 新模型和功能的主要界面。迄今,用戶已經(jīng)借助 DreamStudio 創(chuàng)建了數(shù)百萬張圖像。

最近,DreamStudio 還升級到了 SDXL,實現(xiàn)了比其前身 Stable Diffusion 2.1 更詳細(xì)的圖像和構(gòu)圖,并能用較短的 prompt 來創(chuàng)建描述性圖像。

就目前來說,DreamStudio 已經(jīng)可以生成這樣的圖像,效果不輸 Midjourney 5.1:

盡管 DreamStudio 提供了幾乎沒有門檻的圖像生成方法,但它也有一個條件:付費。SDXL 版本的定價甚至還要更高一些。11a4c6c2-f8ab-11ed-90ce-dac502259ad0.png

而且,對一部分技術(shù)過關(guān)的開發(fā)者來說,他們也希望能夠在 DreamStudio 的基礎(chǔ)上進(jìn)行一些應(yīng)用擴展。或許是聽到了網(wǎng)友們的心聲?剛剛,Stability AI 發(fā)布了 DreamStudio 的開源版本 ——StableStudio。

開源地址:https://github.com/Stability-AI/StableStudio

「我們相信,擴大技術(shù)落地的最佳方式是通過開放、社區(qū)驅(qū)動的開發(fā),而不是閉源產(chǎn)品的私有化迭代?!筍tability AI 表示。

在該公司的規(guī)劃中,StableStudio 的目標(biāo)是進(jìn)行更廣泛的社區(qū)合作,為生成式 AI 打造一個世界級的用戶界面,讓用戶能夠充分控制。盡管 DreamStudio 仍將是 Stability 公司托管的 StableStudio 的實現(xiàn),但最終目標(biāo)是培養(yǎng)一個能夠超越任何由單一公司開發(fā)的項目。

具體來說,StableStudio 和 DreamStudio 有什么區(qū)別?

Stability AI 做了一些調(diào)整,使得該項目對社區(qū)更加友好。包括:

  • 刪除了 DreamStudio 專屬品牌;

  • 所有在線 API 調(diào)用都已被插件系統(tǒng)取代,用戶可以輕松更換后端;

  • 刪除了專屬于 Stability 的帳戶功能,例如計費、API 密鑰管理等。

擴展功能

DreamStudio 最初被設(shè)想為 Disco Diffusion 的動畫 studio,2022 年 Stable Diffusion 發(fā)布之后,DreamStudio 的重點就轉(zhuǎn)向了圖像生成。

受今年爆火的對話模型啟發(fā),4 月 Stability AI 發(fā)布了開源 LLM StableVicuna。DreamStudio 的開源版本 StableStudio 將和 StableVicuna 結(jié)合,推出聊天界面。1314e5e6-f8ab-11ed-90ce-dac502259ad0.png

Stability AI 表示,StableStudio 未來可能會更新以下功能:

  • 通過 WebGPU 進(jìn)行局部推理

  • 通過 stable-diffusion-webui 進(jìn)行局部推理

  • 桌面安裝

  • ControlNet 工具

3. 3.6萬億token、3400億參數(shù),谷歌大模型PaLM 2細(xì)節(jié)遭曝光

原文:https://mp.weixin.qq.com/s/KisM8tU8sHZLhUjxcCG-NA

上周四,在 2023 谷歌 I/O 大會上,谷歌 CEO 皮查伊宣布推出對標(biāo) GPT-4 的大模型 PaLM 2,并正式發(fā)布預(yù)覽版本,改進(jìn)了數(shù)學(xué)、代碼、推理、多語言翻譯和自然語言生成能力。

1375755a-f8ab-11ed-90ce-dac502259ad0.png

PaLM 2 模型提供了不同尺寸規(guī)模的四個版本,從小到大依次為 Gecko、Otter、Bison 和 Unicorn,更易于針對各種用例進(jìn)行部署。其中輕量級的 Gecko 模型可以在移動設(shè)備上運行,速度非???,不聯(lián)網(wǎng)也能在設(shè)備上運行出色的交互式應(yīng)用程序。不過會上,谷歌并沒有給出有關(guān) PaLM 2 的具體技術(shù)細(xì)節(jié),只說明了它是構(gòu)建在谷歌最新 JAX 和 TPU v4 之上。

13e9a682-f8ab-11ed-90ce-dac502259ad0.png

昨日,據(jù)外媒 CNBC 看到的內(nèi)部文件稱,PaLM 2 是在 3.6 萬億個 token 上訓(xùn)練。作為對比,上代 PaLM 接受了 7800 億 token 的訓(xùn)練。

此外,谷歌之前表示 PaLM 2 比以前的 LLM 規(guī)模更小,這意味著在完成更復(fù)雜任務(wù)的同時變得更加高效。這一點也在內(nèi)部文件中得到了驗證,PaLM 2 的訓(xùn)練參數(shù)量為 3400 億,遠(yuǎn)小于 PaLM 的 5400 億。

PaLM 2 的訓(xùn)練 token 和參數(shù)量與其他家的 LLM 相比如何呢?作為對比,Meta 在 2 月發(fā)布的 LLaMA 接受了 1.4 萬億 token 的訓(xùn)練。OpenAI 1750 億參數(shù)的 GPT-3 是在 3000 億 token 上訓(xùn)練的。

雖然谷歌一直渴望展示其 AI 技術(shù)的強大能力以及如何嵌入到搜索、電子郵件、文件處理和電子表格中,但也不愿公布其訓(xùn)練數(shù)據(jù)的大小或其他細(xì)節(jié)。其實這樣做的不只谷歌一家,OpenAI 也緘口不言其最新多模態(tài)大模型 GPT-4 的細(xì)節(jié)。他們都表示不披露細(xì)節(jié)是源于業(yè)務(wù)的競爭屬性。

不過,隨著 AI 軍備競賽的持續(xù)升溫,研究界越來越要求提高透明度。并且在前段時間泄露的一份谷歌內(nèi)部文件中,谷歌內(nèi)部研究人員表達(dá)了這樣一種觀點:雖然表面看起來 OpenAI 和谷歌在 AI 大模型上你追我趕,但真正的贏家未必會從這兩家中產(chǎn)生,因為第三方力量「開源」正在悄然崛起。

目前,這份內(nèi)部文件的真實性尚未得到驗證,谷歌也并未對相關(guān)內(nèi)容置評。

4. 前哈工大教授開發(fā)的ChatALL火了!可同時提問17個聊天模型,ChatGPT/Bing/Bard/文心/訊飛都OK

原文:https://www.thepaper.cn/newsDetail_forward_23143443?commTag=true

今天的你,是否還在幾個聊天大模型之間“反復(fù)橫跳”?

畢竟各家訓(xùn)練數(shù)據(jù)和方法不盡相同,擅長和不擅長的東西也都不一樣。

現(xiàn)在,不用這么麻煩了。

有人開發(fā)了一個名叫“ChatALL”的應(yīng)用,可以將你的提問同時發(fā)送給10多個市面上常見的聊天機器人,比如ChatGPT、GPT4、Bing、Bard、Claude、文心一言、訊飛星火等等,并一一展現(xiàn)出來。

144bff76-f8ab-11ed-90ce-dac502259ad0.png

由此一來,你就可以輕松比對出答得最好的那一個,然后采用。

簡直太方便了有沒有?

這不,項目非常受歡迎,已登上GitHub今日熱榜第一名,攬獲1.6k+標(biāo)星。

14c42fbe-f8ab-11ed-90ce-dac502259ad0.png

它是一個應(yīng)用程序,支持中英德三種語言。

只需下載安裝包即可使用,Mac、Windows和Linux都支持。

其功能包括:

  • 快問模式:不需要等待前面的請求完成,就可以發(fā)下一條指令

  • 對話歷史保存在本地,保護你的隱私

  • 高亮喜歡的答案,刪除不需要的答案

  • 自動保持ChatGPT不掉線

  • 隨時啟用/禁用任何機器人

  • 在一列、兩列或三列視圖之間切換

  • ……

未來還能夠推薦最佳答案。

目前支持的AI聊天機器人列表如下:14ebbcdc-f8ab-11ed-90ce-dac502259ad0.png

其中,特別包括一個本地Gradio,它可以對接你自己部署的模型。

而在應(yīng)用程序界面中,一共顯示了17個圖標(biāo),證明目前最多已可支持17種聊天機器人。

需要注意的是,這只是一個集中了所有聊天AI的程序,不是代理,所以每個都需要你登錄自己的賬號,當(dāng)然,API token也可以。

登錄之后,想一次詢問哪些機器人就點亮對應(yīng)的圖標(biāo),就可以開始玩耍了。大家快去試試吧。

5. AI孫燕姿成今年爆火歌手,這一時代眼見不實,耳聽為虛

原文:https://mp.weixin.qq.com/s/1XP5VAJe7Extk6TEkU9rzQ

就在近期,華語樂壇的不少歌迷喜氣洋洋,認(rèn)為目前的歌壇回到了20年前,歌迷們又享受到了許多動聽的歌聲。不過與以往不同的是,這些演唱者并非真人,而是一個個訓(xùn)練出來的AI。

這些AI足以以假亂真,通過技術(shù)將一首音樂以更換演唱者的方式來進(jìn)行不同的演繹,不僅為歌壇帶來了不一樣的視聽體驗,同時也引發(fā)了行業(yè)對AI技術(shù)應(yīng)用的思考。在AI時代,我們的所見所聞,或許都是由AI創(chuàng)造的。

光怪陸離的AI時代

如今的網(wǎng)絡(luò)上有一個梗,要問今年哪個歌手最火,答案可能會出乎許多人意料,并不是某位歌手,而是一些由AI所制作出來的語音,如AI孫燕姿、AI周杰倫等。通過將原來歌手的聲音進(jìn)行采集訓(xùn)練,從而替換另一首歌的原唱。

通過這種方式,實現(xiàn)了讓自己喜歡的歌手唱另一首自己喜歡但非歌手的歌,比如用孫燕姿的聲音演唱周杰倫的《晴天》。關(guān)鍵在于,不論是演唱語調(diào)、技巧乃至音色,幾乎都與孫燕姿相差無幾。

實現(xiàn)這一技術(shù)目前已經(jīng)有一套標(biāo)準(zhǔn)流程,先通過收集大量的音樂和歌詞,并對這些數(shù)據(jù)進(jìn)行清洗和標(biāo)注,以便訓(xùn)練算法和模型。再選擇合適的算法和模型,并進(jìn)行優(yōu)化和調(diào)整,以提高虛擬人物的歌唱和表演能力。

通過語音合成技術(shù)將文字轉(zhuǎn)換為聲音,并對聲音進(jìn)行處理和優(yōu)化,以達(dá)到更加自然和流暢的效果。最后將原來歌曲的聲音替換成語音合成的聲音,再進(jìn)行調(diào)試,就能得到一首全新演唱的歌曲。

既然都已經(jīng)可以替換聲音演唱歌曲了,那么更進(jìn)一步替換視頻畫面進(jìn)行演繹也就不太難了。近期谷歌的I/O大會上,便公布了一項Universal Translator技術(shù),該工具旨在將視頻從一種語言翻譯成另一種語言,同時保留整體基調(diào)和氛圍。

這意味著該技術(shù)不僅可以將音頻從一種語言翻譯成另一種語言,還可以模仿說話者的聲音、語氣和面部表情,人物說話視頻會根據(jù)目標(biāo)語言的發(fā)音同步改變口型。

當(dāng)然,為了避免這項技術(shù)被用來制作虛假視頻,谷歌將這項技術(shù)只授權(quán)給少部分的合作廠商使用,普通人是無法接觸到的。但市場上如今已經(jīng)有許多類似的AI出現(xiàn),谷歌的此舉不過是略作限制,但無法阻止這股趨勢。

更有甚者,如一位美國網(wǎng)紅發(fā)布了AI版本的自己“Caryn AI”,這個應(yīng)用是一款聊天機器人,可以作為用戶的虛擬伴侶,目前正在內(nèi)部測試階段,每分鐘收費一美元。

據(jù)美國雜志《財富》披露,就在過去一周的時間內(nèi),這款軟件已經(jīng)為其創(chuàng)造了7.16萬美元(約合人民幣50萬元)的收入,已經(jīng)吸引了超過1000名付費粉絲。

這種模式或許也將沖擊未來的娛樂行業(yè),想象每一位追星的粉絲,只要付費,都將擁有與自己偶像一對一聊天的機會,其所創(chuàng)造的價值潛力將是巨大的。

但這種由AI所創(chuàng)造出來的音樂、視頻、伴侶或者偶像,真的可以提供人們所需要的情緒價值嗎?這是個值得思考的問題。

AI之后的隱憂

盡管這些AI應(yīng)用的落地前景非常誘人,比如采用AI替換歌曲中的聲音,就能夠?qū)崿F(xiàn)歌手只需要提供聲音的模板,便可以進(jìn)行批量的音樂制作。甚至不用自己演唱,也能夠推行相關(guān)專輯。

技術(shù)上主要通過機器學(xué)習(xí)技術(shù),訓(xùn)練機器模仿一個特定的歌手的音樂風(fēng)格、聲音和唱腔,然后將這些技能應(yīng)用于其他歌曲的錄制中。這種技術(shù)在一定程度上提高了錄制歌曲的效率和質(zhì)量,并且可以節(jié)省制作成本。

但如果使用他人的聲音進(jìn)行創(chuàng)作,就可能有侵權(quán)的風(fēng)險。尤其在數(shù)據(jù)采集階段,以語音替換為例,首先需要收集大量的語音數(shù)據(jù),并對這些數(shù)據(jù)進(jìn)行標(biāo)注和處理。標(biāo)注可以包括音素、語調(diào)、語速等信息,以便訓(xùn)練模型能夠準(zhǔn)確地識別和替換語音。

這一過程便可能涉及到對用戶隱私數(shù)據(jù)的采用,甚至對用戶的隱私和數(shù)據(jù)安全造成威脅,還有可能進(jìn)一步造成財產(chǎn)安全。因為語音合成就可能被犯罪分子用于詐騙,通過合成親屬或者熟人的聲音來謀取資金。

如果用AI更改視頻畫面甚至進(jìn)一步篡改其中的對話,則可能造成更多的風(fēng)險。比如將會遇到即便是用視頻聊天,也無法確定對面的是不是真的想要聯(lián)系的那個人。這項技術(shù)目前甚至已經(jīng)應(yīng)用在許多的直播平臺中,比如一些虛擬主播、虛擬偶像等,如果一旦濫用,可能會造成更多的危害。

為了避免這一情況的發(fā)生,除了加強對AI技術(shù)的監(jiān)管,建立相應(yīng)的法律制度和規(guī)范,還可以通過一些技術(shù)手段來避免自身的數(shù)據(jù)被采集,從而造成侵權(quán)以及侵犯隱私的風(fēng)險。比如采用區(qū)塊鏈技術(shù)來保護數(shù)據(jù)的安全性和隱私性,采用人工智能算法來檢測和識別惡意行為等手段。

以區(qū)塊鏈技術(shù)為例,其去中心化和不可變性特點能夠確保數(shù)據(jù)的安全和完整性,因此可以用于AI技術(shù)的安全驗證和認(rèn)證?;趨^(qū)塊鏈技術(shù),數(shù)據(jù)交互和交流的過程被保護,因此可以授權(quán)AI對數(shù)據(jù)的操作并確保AI數(shù)據(jù)訪問權(quán)限受到限制。

同時,區(qū)塊鏈技術(shù)還可以幫助人們更好地控制AI技術(shù)的使用,并提高AI的公正和透明性。例如,以基于區(qū)塊鏈技術(shù)的智能合約的方式來控制AI的使用,可以加強對AI系統(tǒng)的監(jiān)督,并確保其行為符合人類的期望和價值。

當(dāng)然,區(qū)塊鏈技術(shù)還面臨著可擴展性、隱私保護等問題,同時在操作成本和技術(shù)難度方面也存在一定的限制,還無法完全避免AI濫用的問題。

我們還可以運用數(shù)字簽名技術(shù)檢測音頻和視頻是否被AI修改,數(shù)字簽名是指在文件中包含數(shù)字代碼的技術(shù),在將文件傳輸或轉(zhuǎn)發(fā)給其他人時,可以驗證文件的完整性和真實性?;蛘呤褂脵C器學(xué)習(xí)算法來檢測這些變化,例如,可以使用深度神經(jīng)網(wǎng)絡(luò)來對音頻或視頻進(jìn)行分析,以檢測其中的模式和結(jié)構(gòu)是否與人類創(chuàng)作者的作品相似。如果發(fā)現(xiàn)有明顯的差異,則可能表明該作品是由AI生成的。

但隨著未來AI技術(shù)的發(fā)展,這些差異化和容易被檢測出來的問題都有可能被AI克服,使得我們最終很難分辨哪些產(chǎn)品是由AI制作,哪些才是由人所原創(chuàng)的。

寫在最后

隨著生成式AI技術(shù)的大爆發(fā),如ChatGPT、文心一言、訊飛星火等聊天機器人的出現(xiàn),讓人們工作效率得以極大地提高,Stable Diffusion、Midjourney等AI的出現(xiàn),讓圖片制作成本大幅降低,Universal Translator、Video Dubbing AI等,讓視頻也開始變得容易制作。

這些AI技術(shù)的出現(xiàn)顯然極大的解放了人們的生產(chǎn)力,讓人類發(fā)展走上快車道。當(dāng)然有人會說以上這些AI都是通過收集大量數(shù)據(jù)之后,輸出縫合之后的產(chǎn)品,根本不能稱得上是原創(chuàng)。

但就像我們的學(xué)習(xí)過程一樣,最開始都是模仿,后來才開始擁有自己的獨立風(fēng)格,但這些風(fēng)格或多或少都會有之前學(xué)習(xí)過的影子,而這就是創(chuàng)造的過程,AI也是如此。

更值得關(guān)注的是,隨著AI技術(shù)的快速發(fā)展,其所帶來的風(fēng)險也在與日俱增。如何更好的處理AI所引發(fā)的風(fēng)險,將是我們未來所面對的主要問題。

6. 星一文看盡深度學(xué)習(xí)各種注意力機制,學(xué)習(xí)推薦!

https://mp.weixin.qq.com/s/PkzzElN1uk2Yzu1DsYnOdQ

注意力機制在計算機視覺領(lǐng)域的應(yīng)用主要使用于捕捉圖像上的respective field,而在自然語言處理領(lǐng)域中的應(yīng)用主要使用于定位關(guān)鍵的token。下面簡單介紹下注意力機制在早期的幾個經(jīng)典應(yīng)用。1562a3ba-f8ab-11ed-90ce-dac502259ad0.jpg

《A Model of Saliency-Based Visual Attention for Rapid Scene Analysis》[2]

159b9918-f8ab-11ed-90ce-dac502259ad0.png

這是早期將注意力機制應(yīng)用于計算機視覺領(lǐng)域的一篇代表作,文章于1998年發(fā)表于TAPMI。作者受早期靈長目視覺系統(tǒng)的神經(jīng)元結(jié)構(gòu)啟發(fā),提出了一種視覺注意力系統(tǒng),可以將多尺度的圖像特征組合成單一的顯著性圖。最后,利用一個動態(tài)神經(jīng)網(wǎng)絡(luò),并按照顯著性的順序來高效的選擇重點區(qū)域。

《Recurrent Models of Visual Attention》[3]

15d01652-f8ab-11ed-90ce-dac502259ad0.png

使注意力機制真正火起來的當(dāng)屬于谷歌DeepMind于2014年所提出的這篇文章,該論文首次在RNN模型上應(yīng)用了注意力機制的方法進(jìn)行圖像分類。

《Neural Machine Translation by Jointly Learning to Align and Translate》[4]

15f40c06-f8ab-11ed-90ce-dac502259ad0.png

這是由深度學(xué)習(xí)三巨頭之一Yoshua Bengio等人于2015年發(fā)表于ICLR上的一篇論文,該論文的最大貢獻(xiàn)是將注意力機制首次應(yīng)用到NLP領(lǐng)域,實現(xiàn)了同步的對齊和翻譯,解決以往神經(jīng)機器翻譯(NMT)領(lǐng)域使用Encoder-Decoder架構(gòu)的一個潛在問題,即將信息都壓縮在固定長度的向量,無法對應(yīng)長句子。

《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》[5]

這篇文章由Yoshua Bengio等人于2015年在ICML上所發(fā)表的,該論文將注意力機制引入到圖像領(lǐng)域,作者提出了兩種基于注意力機制的圖像描述生成模型: 使用基本反向傳播訓(xùn)練的Soft Attetnion方法和使用強化學(xué)習(xí)訓(xùn)練的Hard Attention方法。

《Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-grained Image Recognition》[6]

這是發(fā)表于CVPR 2017年的一篇文章,作者提出了一種基于CNN的注意力機制,叫做循環(huán)注意力卷積神經(jīng)網(wǎng)絡(luò)(Recurrent Attention Convolutional Neural Network, RA-CANN),該網(wǎng)絡(luò)可以遞歸地分析局部信息,并從所獲取的局部區(qū)域中提取細(xì)粒度信息。此外,作者還引入了一個注意力生成子網(wǎng)絡(luò)(Attenion Proposal Sub-Network, APN),迭代的對整圖操作以生成對應(yīng)的子區(qū)域,最后再將各個子區(qū)域的預(yù)測記過整合起來,從而后的整張圖片最終的分類預(yù)測結(jié)果。

《Attention is All Your Need》[7]

16c17fec-f8ab-11ed-90ce-dac502259ad0.png

這是由谷歌機器翻譯團隊于2017年發(fā)表于NIPS上的一篇文章,該論文最大的貢獻(xiàn)便是拋棄了以往機器翻譯基本都會應(yīng)用的RNN或CNN等傳統(tǒng)架構(gòu),以編碼器-解碼器為基礎(chǔ),創(chuàng)新性的提出了一種Transformer架構(gòu)。該架構(gòu)可以有效的解決RNN無法并行處理以及CNN無法高效的捕捉長距離依賴的問題,近期更是被進(jìn)一步地應(yīng)用到了計算機視覺領(lǐng)域,同時在多個CV任務(wù)上取得了SOTA性能,挑戰(zhàn)CNN在CV領(lǐng)域多年的霸主地位。

本文將重點圍繞通道、空間、自注意力、類別等多個維度[8]介紹計算機視覺領(lǐng)域中較為出名的注意力機制方法,力爭用最簡短的語言解釋得更加通俗易懂。

通道&空間注意力

通道注意力旨在顯示的建模出不同通道之間的相關(guān)性,通過網(wǎng)絡(luò)學(xué)習(xí)的方式來自動獲取到每個特征通道的重要程度,最后再為每個通道賦予不同的權(quán)重系數(shù),從而來強化重要的特征抑制非重要的特征。
空間注意力旨在提升關(guān)鍵區(qū)域的特征表達(dá),本質(zhì)上是將原始圖片中的空間信息通過空間轉(zhuǎn)換模塊,變換到另一個空間中并保留關(guān)鍵信息,為每個位置生成權(quán)重掩膜(mask)并加權(quán)輸出,從而增強感興趣的特定目標(biāo)區(qū)域同時弱化不相關(guān)的背景區(qū)域。

SE-Net[9]

《Squeeze-and-Excitation Networks》發(fā)表于CVPR 2018,是CV領(lǐng)域?qū)⒆⒁饬C制應(yīng)用到通道維度的代表作,后續(xù)大量基于通道域的工作均是基于此進(jìn)行潤(魔)色(改)。SE-Net是ImageNet 2017大規(guī)模圖像分類任務(wù)的冠軍,結(jié)構(gòu)簡單且效果顯著,可以通過特征重標(biāo)定的方式來自適應(yīng)地調(diào)整通道之間的特征響應(yīng)。

1707ec66-f8ab-11ed-90ce-dac502259ad0.png

  • Squeeze利用全局平均池化(Global Average Pooling, GAP) 操作來提取全局感受野,將所有特征通道都抽象為一個點;

  • Excitation利用兩層的多層感知機(Multi-Layer Perceptron, MLP) 網(wǎng)絡(luò)來進(jìn)行非線性的特征變換,顯示地構(gòu)建特征圖之間的相關(guān)性;

  • Transform利用Sigmoid激活函數(shù)實現(xiàn)特征重標(biāo)定,強化重要特征圖,弱化非重要特征圖。

 1classSELayer(nn.Module):
 2def__init__(self,channel,reduction=16):
 3super(SELayer,self).__init__()
 4self.avg_pool=nn.AdaptiveAvgPool2d(1)
 5self.fc=nn.Sequential(
 6nn.Linear(channel,channel//reduction,bias=False),
 7nn.ReLU(inplace=True),
 8nn.Linear(channel//reduction,channel,bias=False),
 9nn.Sigmoid()
10)
11
12defforward(self,x):
13b,c,_,_=x.size()
14y=self.avg_pool(x).view(b,c)
15y=self.fc(y).view(b,c,1,1)
16returnx*y.expand_as(x)

此外,本文還總結(jié)了一下網(wǎng)絡(luò),感興趣的同學(xué)可以查看原文。

GE-Net[10]

RA-Net[12]

SK-Net[13]

SPA-Net[14]

ECA-Net[15]

CBAM[16]

BAM[17]

scSE[18]

A2-Nets[19]

Non-Local[20]

DA-Net[22]

ANLNet[24]

CC-Net[26]

GC-Net[28]

———————End———————

RT-Thread線下入門培訓(xùn)

6月 - 鄭州、杭州、深圳

1.免費2.動手實驗+理論3.主辦方免費提供開發(fā)板4.自行攜帶電腦,及插線板用于筆記本電腦充電5.參與者需要有C語言、單片機ARM Cortex-M核)基礎(chǔ),請?zhí)崆鞍惭b好RT-Thread Studio 開發(fā)環(huán)境

172cb762-f8ab-11ed-90ce-dac502259ad0.png

立即掃碼報名

報名鏈接

https://jinshuju.net/f/UYxS2k

巡回城市:青島、北京、西安、成都、武漢、鄭州、杭州、深圳、上海、南京

你可以添加微信:rtthread2020 為好友,注明:公司+姓名,拉進(jìn)RT-Thread官方微信交流群!

點擊閱讀原文,進(jìn)入RT-Thread 官網(wǎng)


原文標(biāo)題:【AI簡報20230522期】ChatGPT App 來了!谷歌大模型PaLM 2細(xì)節(jié)遭曝光

文章出處:【微信公眾號:RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • RT-Thread
    +關(guān)注

    關(guān)注

    32

    文章

    1406

    瀏覽量

    41927

原文標(biāo)題:【AI簡報20230522期】ChatGPT App 來了!谷歌大模型PaLM 2細(xì)節(jié)遭曝光

文章出處:【微信號:RTThread,微信公眾號:RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    大家都在用什么AI軟件?有沒有好用的免費的AI軟件推薦一下?

    大家都在用什么AI軟件?有沒有好用的免費的AI軟件推薦一下?直接發(fā)個安裝包,謝謝。比如deepseek、Chatgpt、豆包、阿里AI、百度AI
    發(fā)表于 07-09 18:30

    AI真會人格分裂!OpenAI最新發(fā)現(xiàn),ChatGPT善惡開關(guān)已開啟

    AI現(xiàn)在就像一個小朋友,很容易就學(xué)壞了!OpenAI剛剛發(fā)現(xiàn),如果用錯誤的數(shù)據(jù)微調(diào)自家的模型的一個領(lǐng)域,ChatGPT就會把在這個領(lǐng)域?qū)W到的「惡」和「壞」泛化到其他領(lǐng)域。比如「刻意」用錯誤數(shù)據(jù)在汽車
    的頭像 發(fā)表于 06-20 12:41 ?1381次閱讀
    <b class='flag-5'>AI</b>真會人格分裂!OpenAI最新發(fā)現(xiàn),<b class='flag-5'>ChatGPT</b>善惡開關(guān)已開啟

    谷歌新一代生成式AI媒體模型登陸Vertex AI平臺

    我們在 Vertex AI 上推出新一代生成式 AI 媒體模型: Imagen 4、Veo 3 和 Lyria 2
    的頭像 發(fā)表于 06-18 09:56 ?355次閱讀

    如何賦能醫(yī)療AI模型應(yīng)用?

    引言自ChatGPT掀起熱潮以來,眾多AI模型如雨后春筍般涌現(xiàn),其中包括百度科技的文心一言、科大訊飛的訊飛星火、華為的盤古AI模型、騰訊
    的頭像 發(fā)表于 05-07 09:36 ?260次閱讀
    如何賦能醫(yī)療<b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>應(yīng)用?

    首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手

    ,聯(lián)發(fā)科帶來了全面升級的天璣AI開發(fā)套件2.0,在模型庫規(guī)模、架構(gòu)開放程度、前沿端側(cè)AI技術(shù)支持和端側(cè)LoRA訓(xùn)練落地等方面均迎來全面躍遷,為開發(fā)者提供了更全面、更開放、更強大的端側(cè)
    發(fā)表于 04-13 19:52

    谷歌新一代 TPU 芯片 Ironwood:助力大規(guī)模思考與推理的 AI 模型新引擎?

    與推理 AI 模型。谷歌方面表示,它代表著 AI 發(fā)展從 “響應(yīng)式” 向 “主動式” 的范式轉(zhuǎn)變,未來 AI 代理將能夠主動檢索并
    的頭像 發(fā)表于 04-12 00:57 ?2417次閱讀

    涂鴉智能集成Mistral AI模型,加速歐洲AI硬件革新

    2025年2月,法國AI初創(chuàng)公司MistralAI憑借首次發(fā)布的AI模型——LeChat,登頂法國免費App榜首,這一成績不僅引發(fā)行業(yè)震動
    的頭像 發(fā)表于 02-13 20:58 ?337次閱讀
    涂鴉智能集成Mistral <b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>,加速歐洲<b class='flag-5'>AI</b>硬件革新

    谷歌 Gemini 2.0 Flash 系列 AI 模型上新

    谷歌旗下 AI模型 Gemini 系列全面上新,正式版 Gemini 2.0 Flash、Gemini 2.0 Flash-Lite 以及新一代旗艦大模型 Gemini 2.0 P
    的頭像 發(fā)表于 02-07 15:07 ?713次閱讀

    AI眼鏡形態(tài)席卷可穿戴市場!谷歌眼鏡幾次“流產(chǎn)”,將靠AI翻盤

    ? 電子發(fā)燒友網(wǎng)報道(文/莫婷婷)在ChatGPT進(jìn)化史上,繞不開的一家廠商是谷歌。2024年12月,谷歌發(fā)布 Gemini 2.0,該產(chǎn)品被稱為登頂AI巔峰、秒殺
    的頭像 發(fā)表于 12-26 00:12 ?3604次閱讀

    谷歌發(fā)布Gemini 2.0 AI模型

    谷歌近日正式推出了新一代AI模型——Gemini 2.0。此次更新引入了名為“深度研究”的新特性,旨在為用戶提供更加全面和深入的復(fù)雜主題探索與報告撰寫輔助。 Gemini 2.0通過高級推理和長上
    的頭像 發(fā)表于 12-12 10:13 ?641次閱讀

    大聯(lián)大推出基于MediaTek Genio 130與ChatGPTAI語音助理方案

    ,為市場帶來了全新的智能交互體驗。 該AI語音助理方案充分利用了MediaTek Genio 130芯片的強大性能與ChatGPT的先進(jìn)人工智能技術(shù)。MediaTek Genio 130芯片作為聯(lián)發(fā)
    的頭像 發(fā)表于 12-11 11:07 ?834次閱讀

    Llama 3 模型與其他AI工具對比

    本處理的效率。 其他AI工具 如ChatGPT、GPT-4等也基于Transformer架構(gòu),但可能在細(xì)節(jié)上有所不同,如注意
    的頭像 發(fā)表于 10-27 14:37 ?1059次閱讀

    華納云:ChatGPT 登陸 Windows

    ChatGPT 桌面應(yīng)用,您可以聊聊文件和照片。這款應(yīng)用為您帶來了 OpenAI 最新的模型改進(jìn),包括訪問我們最新、最智能的模型OpenAI o1-preview ?!?Window
    的頭像 發(fā)表于 10-18 15:50 ?526次閱讀

    谷歌獲Character.AI模型技術(shù)授權(quán),創(chuàng)始人重歸谷歌懷抱

    8月5日最新資訊,創(chuàng)新企業(yè)Character.AI在上周五正式宣布,他們已經(jīng)與科技巨頭谷歌的母公司Alphabet達(dá)成了一項重要合作,非獨家授權(quán)谷歌使用其先進(jìn)的大型語言模型技術(shù)。此次合
    的頭像 發(fā)表于 08-05 14:35 ?756次閱讀