AI 簡(jiǎn)報(bào) 20230616 期
1. AMD硬剛英偉達(dá),推出Instinct MI300,單芯片可運(yùn)行800億參數(shù)
原文:https://mp.weixin.qq.com/s/NeSIBtjZ71evn09NPEAc2Q美國(guó)時(shí)間本周二,AMD舉行了重磅發(fā)布會(huì),推出了一款全新的人工智能GPU Instinct MI300,并表示這款處理器將于今年晚些時(shí)候開(kāi)始向部分客戶(hù)發(fā)貨。自英偉達(dá)發(fā)布了AI芯片后,便徹底帶動(dòng)了市場(chǎng)的投資熱情,也推動(dòng)英偉達(dá)登上萬(wàn)億美元市值的高峰。此次AMD發(fā)布重磅AI芯片,有望對(duì)英偉達(dá)當(dāng)前的市場(chǎng)地位形成一定沖擊。AMD推出高性能AI芯片在這次AMD的新品發(fā)布會(huì)中,核心產(chǎn)品無(wú)疑是用于訓(xùn)練大模型的GPU Instinct MI300。早在今年初,AMD便已經(jīng)宣布了新一代Instinct MI300,是全球首款同時(shí)集成CPU、GPU的數(shù)據(jù)中心APU。如今,這款芯片的名字變成了Instinct MI300A,而純GPU產(chǎn)品則命名為Instinct MI300X。據(jù)AMD的CEO蘇姿豐透露,MI300A是全球首個(gè)為AI和HPC(高性能計(jì)算)打造的APU加速卡,擁有13個(gè)小芯片,總共包含1460億個(gè)晶體管,24個(gè)Zen 4 CPU核心,1個(gè)CDNA 3圖形引擎和128GB HBM3內(nèi)存。相比前代MI250,MI300的性能提高八倍,效率提高五倍。AMD在發(fā)布會(huì)稍早介紹,新的Zen 4c內(nèi)核比標(biāo)準(zhǔn)的Zen 4內(nèi)核密度更高,比標(biāo)準(zhǔn)Zen 4的內(nèi)核小35%,同時(shí)保持100%的軟件兼容性。而GPU MI300X更是本次發(fā)布會(huì)的重點(diǎn),這款芯片是AMD針對(duì)大語(yǔ)言模型優(yōu)化的版本,該產(chǎn)品的晶體管數(shù)量達(dá)到1530億個(gè),內(nèi)存達(dá)到了192GB,內(nèi)存帶寬為5.2TB/s,Infinity Fabric帶寬為896GB/s。對(duì)比英偉達(dá)的H100,MI300X提供的HBM(高帶寬內(nèi)存)密度約為H100的2.4倍,HBM帶寬是1.6倍。這意味著AMD的這款產(chǎn)品可以運(yùn)行比英偉達(dá)H100更大的模型,在現(xiàn)場(chǎng)AMD演示了MI300X運(yùn)行400億參數(shù)的Falcon模型,而OpenAI的GPT-3模型有1750億個(gè)參數(shù)。蘇姿豐還用Hugging Face基于MI300X的大模型寫(xiě)了一首關(guān)于活動(dòng)舉辦地舊金山的詩(shī)。這也是全球首次在單個(gè)GPU上運(yùn)行這么大的模型,據(jù)AMD介紹,單個(gè)MI300X可以運(yùn)行一個(gè)參數(shù)多達(dá)800億的模型。而在未來(lái)隨著AI模型越來(lái)越大,意味著需要更多GPU來(lái)運(yùn)行最新的大模型,而AMD芯片上內(nèi)存的增加,意味著開(kāi)發(fā)人員不需要那么多GPU,可以為用戶(hù)節(jié)省大量成本。蘇姿豐表示,MI300X將于今年第三季度向一些客戶(hù)提供樣品,并于第四季度量產(chǎn)。同時(shí)AMD還發(fā)布了AMD Instinct Platform,集合了8個(gè)MI300X,可提供總計(jì)1.5TB的HBM3內(nèi)存。對(duì)標(biāo)英偉達(dá)的CUDA,AMD也介紹了自身的芯片軟件ROCm,AMD總裁Victor Peng稱(chēng),在構(gòu)建強(qiáng)大的軟件堆棧方面,AMD取得了真正的巨大進(jìn)步,ROCm軟件??膳c模型、庫(kù)、框架和工具的開(kāi)放生態(tài)系統(tǒng)配合使用。之所以將重心放在AI芯片,也是因?yàn)锳MD非常看好未來(lái)的AI市場(chǎng)。蘇姿豐認(rèn)為,數(shù)據(jù)中心人工智能加速器的潛在市場(chǎng)總額將從今年的300億美元增長(zhǎng)到2027年的1500億美元以上。硬剛英偉達(dá),但尚未透露大客戶(hù)從AMD所介紹的產(chǎn)品性能來(lái)看,將成為當(dāng)下AI市場(chǎng)的有力競(jìng)爭(zhēng)者,尤其在ChatGPT等生成式AI的帶動(dòng)下,市場(chǎng)對(duì)高性能GPU需求旺盛。不過(guò)當(dāng)前市場(chǎng)中,英偉達(dá)處于絕對(duì)優(yōu)勢(shì),占據(jù)80%的市場(chǎng)。而AMD并沒(méi)有公布這款GPU的具體價(jià)格,但是對(duì)比英偉達(dá)H100價(jià)格大多在3萬(wàn)美元以上,如果MI300X價(jià)格能夠更加實(shí)惠,將顯著的對(duì)英偉達(dá)產(chǎn)品造成沖擊,并有助于降低生成式AI的研發(fā)成本。有意思的是,在如此強(qiáng)勁的性能面前,市場(chǎng)卻似乎并不買(mǎi)單。截至當(dāng)日收盤(pán),AMD股價(jià)反而下降了3.61%,市值來(lái)到2000億元關(guān)口。而英偉達(dá)股價(jià)則拉升了3.9%,總市值達(dá)到1.01萬(wàn)億美元,是AMD的五倍。此次AMD并未透露哪些公司會(huì)采用MI300X或簡(jiǎn)配版MI300A,而在此前的發(fā)布會(huì)中,AMD都會(huì)披露新產(chǎn)品的大客戶(hù)。這可能讓市場(chǎng)認(rèn)為,目前并沒(méi)有大客戶(hù)為這款芯片買(mǎi)單。另一方面,AMD并沒(méi)有透露新款A(yù)I芯片的具體售價(jià),但想要有顯著的成本優(yōu)勢(shì)可能不太現(xiàn)實(shí),因?yàn)楦呙芏鹊腍BM價(jià)格昂貴。即便MI300X的內(nèi)存達(dá)到了192GB,但這也不是顯著優(yōu)勢(shì),因?yàn)橛ミ_(dá)也擁有相同內(nèi)存規(guī)格的產(chǎn)品。更重要的原因在于,MI300并不具備H100所擁有的Transformer Engine。Transformer Engine能夠用于加速Transformer模型,以在AI的訓(xùn)練和推理中以較低的內(nèi)存利用率提供更好的性能。有分析師認(rèn)為,如果訓(xùn)練一個(gè)新的模型,需要投入數(shù)千個(gè)GPU,并耗費(fèi)一年的時(shí)間,那么幾乎不會(huì)有人會(huì)浪費(fèi)2-3年或者投入3倍數(shù)量的GPU。而Transformer Engine能夠讓大模型實(shí)現(xiàn)三倍的性能表達(dá)。盡管市場(chǎng)中認(rèn)為,AMD的MI300芯片應(yīng)該是除了谷歌的TPU之外,能與英偉達(dá)在AI訓(xùn)練端上匹敵的產(chǎn)品。成為當(dāng)前大企業(yè)在訓(xùn)練AI大模型時(shí),除了英偉達(dá)之外的另一個(gè)重要選擇。但想要在短時(shí)間內(nèi)挑戰(zhàn)英偉達(dá),顯然還是比較困難的。就如AMD總裁VictorPeng說(shuō)的那樣,“盡管這是一個(gè)過(guò)程,但我們?cè)跇?gòu)建強(qiáng)大的軟件堆棧方面取得了很大進(jìn)展,該軟件堆棧與開(kāi)放的模型、庫(kù)、框架和工具生態(tài)系統(tǒng)兼容?!?/span>無(wú)論如何需要市場(chǎng)中有大客戶(hù)切實(shí)的使用AMD新款芯片。小結(jié)AMD此次重磅發(fā)布的MI300系列芯片,無(wú)疑為AI市場(chǎng)注入了一劑強(qiáng)心針,不僅預(yù)示著AMD在持續(xù)看好未來(lái)的AI市場(chǎng),也將表明AMD將在這一市場(chǎng)中與英偉達(dá)正面競(jìng)爭(zhēng)。至少對(duì)于相關(guān)企業(yè)及用戶(hù)而言,有更多的選擇是一件好事。
2. 價(jià)格最高降75%、API函數(shù)調(diào)用上線(xiàn)、上下文長(zhǎng)度提高4倍,OpenAI凌晨再給ChatGPT、GPT-4加碼!
原文:https://mp.weixin.qq.com/s/GcsAk_qqqWfwck4KSdvJew就在今天凌晨,OpenAI 馬不停蹄地又雙叒叕更新啦!這一次,不僅重磅升級(jí)了 ChatGPT 背后的 GPT-3.5-turbo 模型、以及最先進(jìn)的 GPT-4 文本生成模型,而且大幅降低了價(jià)格,另外還為 gpt-3.5-turbo 提供 16000 個(gè) Token 的語(yǔ)境窗口(Context Window)上下文選項(xiàng)。更新速覽詳細(xì)來(lái)看,在今天的更新中,OpenAI 主要聚焦在下面幾個(gè)維度:
- 全新的 16k 上下文 GPT-3.5-Turbo 模型版本(今天向所有人提供)
- 升級(jí)版的 GPT-4 和 GPT-3.5-Turbo 模型
- Chat Completions API 中的新函數(shù)調(diào)用功能
- 最先進(jìn)的 V2 嵌入模型降價(jià) 75%
- gpt-3.5-turbo 的輸入 Token 成本降低 25%
- 宣布 gpt-3.5-turbo-0301 和 gpt-4-0314 模型的淘汰時(shí)間表
- GPT-4 的 API 權(quán)限將開(kāi)放給更多的人


- 創(chuàng)建聊天機(jī)器人,通過(guò)調(diào)用外部工具(例如,像 ChatGPT 插件)來(lái)回答問(wèn)題
- 將自然語(yǔ)言轉(zhuǎn)換為 API 調(diào)用或數(shù)據(jù)庫(kù)查詢(xún)
- 從文本中提取結(jié)構(gòu)化數(shù)據(jù)


3. Altman、Hinton 中國(guó)首秀:GPT 終將過(guò)時(shí),AI 是當(dāng)今世界最迫切的問(wèn)題!
原文:https://mp.weixin.qq.com/s/TsjS-2b-UEE7zsWLA2f7AAOpenAI、DeepMind 和 Stability AI 的科學(xué)家科普 AI 治理,Google、Meta 和微軟的領(lǐng)航人物共論開(kāi)源未來(lái),圖靈獎(jiǎng)得主與斯坦福、UC Berkeley、MIT 的教授展開(kāi)學(xué)術(shù)辯論——這描述的并不是遠(yuǎn)在大洋彼岸的 NeurIPS 或 ACL 會(huì)議,而是由中國(guó)智源研究院主辦的年度盛會(huì):北京智源大會(huì)。今年的北京智源大會(huì)于 6 月 9-10 日召開(kāi),20 場(chǎng)論壇、100 場(chǎng)報(bào)告、頂尖的專(zhuān)家、頂尖的觀(guān)眾,匯聚了 AI 領(lǐng)域純粹、專(zhuān)業(yè)的前沿思想。OpenAI 創(chuàng)始人 Sam Altman 以及“深度學(xué)習(xí)三巨頭”中的兩位 Yann LeCun 與 Geoffrey Hinton 現(xiàn)身于分論壇視頻連線(xiàn)的大熒幕上,Max Tegmark 與 Stuart Russell 等來(lái)自頂尖學(xué)府的教授親赴現(xiàn)場(chǎng)。CSDN 在現(xiàn)場(chǎng)參加了這場(chǎng)為時(shí)兩天的 AI 盛會(huì)。科技大咖智聚京城,共論當(dāng)前 AI 領(lǐng)域最前沿的爭(zhēng)議焦點(diǎn):
- 對(duì) AI 保持樂(lè)觀(guān)主義的 Yann LeCun,認(rèn)為 AI 還遠(yuǎn)遠(yuǎn)未發(fā)展到還需要操心的程度。GPT 終將過(guò)時(shí),未來(lái)的 AI 會(huì)面臨三大挑戰(zhàn),解決后將能訓(xùn)練出「世界模型」(World Model)。
- 曾用一份“暫停 6 個(gè)月 AI 研究”的公開(kāi)信震驚業(yè)界的 Max Tegmark 教授則表示,罔顧 AI 的最壞結(jié)果將會(huì)是人類(lèi)滅絕。對(duì)齊問(wèn)題將是學(xué)術(shù)界接下來(lái)的一大難題:如此龐大而復(fù)雜的智能模型,要怎樣才能保持和人類(lèi)同一水準(zhǔn)的價(jià)值觀(guān)和道德觀(guān)?
- 一亮相便轟動(dòng)北京會(huì)場(chǎng)的 Sam Altman,則發(fā)表了一份真誠(chéng)的呼吁:國(guó)際科技界需要團(tuán)結(jié)一心,攜手促進(jìn) AGI 安全的透明化,為未來(lái)十年內(nèi)誕生的“超級(jí)智能”做好準(zhǔn)備。
- 學(xué)術(shù)界還有一部分人,對(duì)這些圍繞 GPT 的話(huà)題并不買(mǎi)賬,而是關(guān)心更深遠(yuǎn)的 AI 話(huà)題。Stuart Russell 教授直言,目前的大語(yǔ)言模型缺乏「內(nèi)部目標(biāo)」,而人類(lèi)也不理解它們的“黑匣子”里都發(fā)生了什么。
- Geoffrey Hinton 則帶來(lái)了一場(chǎng)精彩絕倫的謝幕演講:“超級(jí)智能”已成雛形,但人類(lèi)尚未給它建立道德準(zhǔn)則——現(xiàn)在為時(shí)不晚。
- AGI 可能很快會(huì)出現(xiàn),超級(jí)智能在未來(lái)十年內(nèi)可能會(huì)成為現(xiàn)實(shí)。
- 目前已經(jīng)取得了一些全球合作的突破,但全球合作仍然面臨困難。
- AI 安全性的研究是一個(gè)復(fù)雜的問(wèn)題,需要考慮多個(gè)因素,并需要大量的投入,希望中國(guó)和美國(guó)的研究人員能做出貢獻(xiàn)。
- 當(dāng)被問(wèn)及是否打算重新開(kāi)放 GPT 的源代碼時(shí),Altman 表示已經(jīng)作出了一定的努力,未來(lái)將會(huì)有許多開(kāi)源大模型誕生。但開(kāi)源模型在 AI 發(fā)展中起了重要作用,當(dāng)模型變得更大時(shí),就更需要謹(jǐn)慎安全問(wèn)題。
- 楊立昆即將參加一個(gè)辯論,與 Joshua Bengio、Max Tegmark 和 Melanie Mitchell 討論人工智能是否會(huì)威脅人類(lèi)生存。
- Max Tegmark 和 Joshua Bengio 認(rèn)為強(qiáng)大的人工智能系統(tǒng)可能對(duì)人類(lèi)構(gòu)成風(fēng)險(xiǎn),而楊立昆和 Melanie Mitchell 則持相反觀(guān)點(diǎn)。
- 楊立昆指出,他并不是想說(shuō)“AI 完全不存在風(fēng)險(xiǎn)”,而是認(rèn)為“目前的 AI 風(fēng)險(xiǎn)可以被謹(jǐn)慎的工程設(shè)計(jì)減輕或抑制”。
- 楊立昆表示自己不能預(yù)測(cè)超級(jí)智能在未來(lái)能造成多大的影響,因?yàn)槌?jí)智能尚未問(wèn)世。他舉了一個(gè)例子:如果你去問(wèn)一個(gè) 1930 年的航空工程師,“我該如何確保渦輪噴氣發(fā)動(dòng)機(jī)的安全可靠性?”那他肯定答不出來(lái),因?yàn)闇u輪噴氣發(fā)動(dòng)機(jī)在 1930 年還沒(méi)被發(fā)明出來(lái)。
4. CVPR23|清華大學(xué)提出LiVT:用視覺(jué)Transformer學(xué)習(xí)長(zhǎng)尾數(shù)據(jù),解決不平衡標(biāo)注數(shù)據(jù)不在話(huà)下
原文:https://mp.weixin.qq.com/s/1MfOWcE9x7Vk7tP2n1V4bg背景在機(jī)器學(xué)習(xí)領(lǐng)域中,學(xué)習(xí)不平衡的標(biāo)注數(shù)據(jù)一直是一個(gè)常見(jiàn)而具有挑戰(zhàn)性的任務(wù)。近年來(lái),視覺(jué) Transformer 作為一種強(qiáng)大的模型,在多個(gè)視覺(jué)任務(wù)上展現(xiàn)出令人滿(mǎn)意的效果。然而,視覺(jué) Transformer 處理長(zhǎng)尾分布數(shù)據(jù)的能力和特性,還有待進(jìn)一步挖掘。目前,已有的長(zhǎng)尾識(shí)別模型很少直接利用長(zhǎng)尾數(shù)據(jù)對(duì)視覺(jué) Transformer(ViT)進(jìn)行訓(xùn)練?;诂F(xiàn)成的預(yù)訓(xùn)練權(quán)重進(jìn)行研究可能會(huì)導(dǎo)致不公平的比較結(jié)果,因此有必要對(duì)視覺(jué) Transformer 在長(zhǎng)尾數(shù)據(jù)下的表現(xiàn)進(jìn)行系統(tǒng)性的分析和總結(jié)。

論文鏈接:https://arxiv.org/abs/2212.02015代碼鏈接:https://github.com/XuZhengzhuo/LiVT本文旨在填補(bǔ)這一研究空白,詳細(xì)探討了視覺(jué) Transformer 在處理長(zhǎng)尾數(shù)據(jù)時(shí)的優(yōu)勢(shì)和不足之處。本文將重點(diǎn)關(guān)注如何有效利用長(zhǎng)尾數(shù)據(jù)來(lái)提升視覺(jué) Transformer 的性能,并探索解決數(shù)據(jù)不平衡問(wèn)題的新方法。通過(guò)本文的研究和總結(jié),研究團(tuán)隊(duì)有望為進(jìn)一步改進(jìn)視覺(jué) Transformer 模型在長(zhǎng)尾數(shù)據(jù)任務(wù)中的表現(xiàn)提供有益的指導(dǎo)和啟示。這將為解決現(xiàn)實(shí)世界中存在的數(shù)據(jù)不平衡問(wèn)題提供新的思路和解決方案。文章通過(guò)一系列實(shí)驗(yàn)發(fā)現(xiàn),在有監(jiān)督范式下,視覺(jué) Transformer 在處理不平衡數(shù)據(jù)時(shí)會(huì)出現(xiàn)嚴(yán)重的性能衰退,而使用平衡分布的標(biāo)注數(shù)據(jù)訓(xùn)練出的視覺(jué) Transformer 呈現(xiàn)出明顯的性能優(yōu)勢(shì)。相比于卷積網(wǎng)絡(luò),這一特點(diǎn)在視覺(jué) Transformer 上體現(xiàn)的更為明顯。另一方面,無(wú)監(jiān)督的預(yù)訓(xùn)練方法無(wú)需標(biāo)簽分布,因此在相同的訓(xùn)練數(shù)據(jù)量下,視覺(jué) Transformer 可以展現(xiàn)出類(lèi)似的特征提取和重建能力。基于以上觀(guān)察和發(fā)現(xiàn),研究提出了一種新的學(xué)習(xí)不平衡數(shù)據(jù)的范式,旨在讓視覺(jué) Transformer 模型更好地適應(yīng)長(zhǎng)尾數(shù)據(jù)。通過(guò)這種范式的引入,研究團(tuán)隊(duì)希望能夠充分利用長(zhǎng)尾數(shù)據(jù)的信息,提高視覺(jué) Transformer 模型在處理不平衡標(biāo)注數(shù)據(jù)時(shí)的性能和泛化能力。文章貢獻(xiàn)本文是第一個(gè)系統(tǒng)性的研究用長(zhǎng)尾數(shù)據(jù)訓(xùn)練視覺(jué) Transformer 的工作,在此過(guò)程中,做出了以下主要貢獻(xiàn):首先,本文深入分析了傳統(tǒng)有監(jiān)督訓(xùn)練方式對(duì)視覺(jué) Transformer 學(xué)習(xí)不均衡數(shù)據(jù)的限制因素,并基于此提出了雙階段訓(xùn)練流程,將視覺(jué) Transformer 模型內(nèi)在的歸納偏置和標(biāo)簽分布的統(tǒng)計(jì)偏置分階段學(xué)習(xí),以降低學(xué)習(xí)長(zhǎng)尾數(shù)據(jù)的難度。其中第一階段采用了流行的掩碼重建預(yù)訓(xùn)練,第二階段采用了平衡的損失進(jìn)行微調(diào)監(jiān)督。





5. LeCun世界模型首項(xiàng)研究來(lái)了:自監(jiān)督視覺(jué),像人一樣學(xué)習(xí)和推理,已開(kāi)源
原文:https://mp.weixin.qq.com/s/A_MmOIOQ08SzWntpd6VYGg去年初,Meta 首席 AI 科學(xué)家 Yann LeCun 針對(duì)「如何才能打造出接近人類(lèi)水平的 AI」提出了全新的思路。他勾勒出了構(gòu)建人類(lèi)水平 AI 的另一種愿景,指出學(xué)習(xí)世界模型(即世界如何運(yùn)作的內(nèi)部模型)的能力或許是關(guān)鍵。這種學(xué)到世界運(yùn)作方式內(nèi)部模型的機(jī)器可以更快地學(xué)習(xí)、規(guī)劃完成復(fù)雜的任務(wù),并輕松適應(yīng)不熟悉的情況。LeCun 認(rèn)為,構(gòu)造自主 AI 需要預(yù)測(cè)世界模型,而世界模型必須能夠執(zhí)行多模態(tài)預(yù)測(cè),對(duì)應(yīng)的解決方案是一種叫做分層 JEPA(聯(lián)合嵌入預(yù)測(cè)架構(gòu))的架構(gòu)。該架構(gòu)可以通過(guò)堆疊的方式進(jìn)行更抽象、更長(zhǎng)期的預(yù)測(cè)。6 月 9 日,在 2023 北京智源大會(huì)開(kāi)幕式的 keynote 演講中,LeCun 又再次講解了世界模型的概念,他認(rèn)為基于自監(jiān)督的語(yǔ)言模型無(wú)法獲得關(guān)于真實(shí)世界的知識(shí),這些模型在本質(zhì)上是不可控的。今日,Meta 推出了首個(gè)基于 LeCun 世界模型概念的 AI 模型。該模型名為圖像聯(lián)合嵌入預(yù)測(cè)架構(gòu)(Image Joint Embedding Predictive Architecture, I-JEPA),它通過(guò)創(chuàng)建外部世界的內(nèi)部模型來(lái)學(xué)習(xí), 比較圖像的抽象表示(而不是比較像素本身)。I-JEPA 在多項(xiàng)計(jì)算機(jī)視覺(jué)任務(wù)上取得非常不錯(cuò)的效果,并且計(jì)算效率遠(yuǎn)高于其他廣泛使用的計(jì)算機(jī)視覺(jué)模型。此外 I-JEPA 學(xué)得的表示也可以用于很多不同的應(yīng)用,無(wú)需進(jìn)行大量微調(diào)。


通過(guò)自監(jiān)督學(xué)習(xí)獲取常識(shí)型知識(shí)I-JEPA 基于一個(gè)事實(shí),即人類(lèi)僅通過(guò)被動(dòng)觀(guān)察就可以了解關(guān)于世界的大量背景知識(shí),這些常識(shí)信息被認(rèn)為是實(shí)現(xiàn)智能行為的關(guān)鍵。通常,AI 研究人員會(huì)設(shè)計(jì)學(xué)習(xí)算法來(lái)捕獲現(xiàn)實(shí)世界的常識(shí),并將其編碼為算法可訪(fǎng)問(wèn)的數(shù)字表征。為了高效,這些表征需要以自監(jiān)督的方式來(lái)學(xué)習(xí),即直接從圖像或聲音等未標(biāo)記的數(shù)據(jù)中學(xué)習(xí),而不是從手動(dòng)標(biāo)記的數(shù)據(jù)集中學(xué)習(xí)。在高層級(jí)上,JEPA 的一個(gè)輸入中某個(gè)部分的表征是根據(jù)其他部分的表征來(lái)預(yù)測(cè)的。同時(shí),通過(guò)在高抽象層次上預(yù)測(cè)表征而不是直接預(yù)測(cè)像素值,JEPA 能夠直接學(xué)習(xí)有用的表征,同時(shí)避免了生成模型的局限性。相比之下,生成模型會(huì)通過(guò)刪除或扭曲模型輸入的部分內(nèi)容來(lái)學(xué)習(xí)。然而,生成模型的一個(gè)顯著缺點(diǎn)是模型試圖填補(bǔ)每一點(diǎn)缺失的信息,即使現(xiàn)實(shí)世界本質(zhì)上是不可預(yù)測(cè)的。因此,生成模型過(guò)于關(guān)注不相關(guān)的細(xì)節(jié),而不是捕捉高級(jí)可預(yù)測(cè)的概念。
- 論文地址:https://arxiv.org/pdf/2301.08243.pdf
- GitHub 地址:https://t.co/DgS9XiwnMz




6. 視頻版Midjourney免費(fèi)開(kāi)放,一句話(huà)拍大片!網(wǎng)友:上一次這么激動(dòng)還是上次了
https://mp.weixin.qq.com/s/Eeuea9l_iQ87eMghCIHpMQ家人們,現(xiàn)在做個(gè)影視級(jí)視頻,也就是一句話(huà)的事了!例如只需簡(jiǎn)單輸入“叢林(Jungle)”,大片鏡頭便可立刻呈現(xiàn):而且圍繞著“叢林”變換幾個(gè)搭配的詞語(yǔ),比如“河流”、“瀑布”、“黃昏”、“白天”等,這個(gè)AI也能秒懂你的意思。還有下面這些自然美景、宇宙奇觀(guān)、微觀(guān)細(xì)胞等高清視頻,統(tǒng)統(tǒng)只需一句話(huà)。這就是Stable Diffusion和《瞬息全宇宙》背后技術(shù)公司Runway,出品的AI視頻編輯工具Gen2。而且就在最近,一個(gè)好消息突然襲來(lái)——Gen2可以免費(fèi)試用了!這可把網(wǎng)友們開(kāi)心壞了,紛紛開(kāi)始嘗鮮了起來(lái)。體驗(yàn)Gen2實(shí)錄如此好玩的技術(shù),我們當(dāng)然也要親手體驗(yàn)上一番。例如我們給Gen2投喂了一句中文:
上海外灘夜景,影視風(fēng)格。
一個(gè)航拍視角的視頻片段便立即被做了出來(lái)。如果想讓視頻的風(fēng)格變換一下,也可以上傳一張圖片,例如我們用的是一張賽博朋克風(fēng)格的城市照片。
目前Runway官網(wǎng)可免費(fèi)體驗(yàn)Gen2的功能是文生視頻(Text to Video),但Gen1也開(kāi)放了視頻生視頻(Video to Video)的功能。例如一個(gè)國(guó)外小哥可能受《瞬息全宇宙》的啟發(fā),憑借Gen1也玩了一把更刺激的穿越。他先是在家錄了一段打響指的視頻,然后“啪的一下”,瞬間讓自己步入歐洲皇室貴族的“片場(chǎng)”:
更多內(nèi)容請(qǐng)查閱源文檔。
7. 分割一切模型(SAM)的全面綜述調(diào)研
https://mp.weixin.qq.com/s/39imonlyIdSHYW9VnQhOjw人工智能(AI)正在向 AGI 方向發(fā)展,這是指人工智能系統(tǒng)能夠執(zhí)行廣泛的任務(wù),并可以表現(xiàn)出類(lèi)似于人類(lèi)的智能水平,狹義上的 AI 就與之形成了對(duì)比,因?yàn)閷?zhuān)業(yè)化的 AI 旨在高效執(zhí)行特定任務(wù)??梢?jiàn),設(shè)計(jì)通用的基礎(chǔ)模型迫在眉睫?;A(chǔ)模型在廣泛的數(shù)據(jù)上訓(xùn)練,因而能夠適應(yīng)各種下游任務(wù)。最近 Meta 提出的分割一切模型(Segment Anything Model,SAM)突破了分割界限,極大地促進(jìn)了計(jì)算機(jī)視覺(jué)基礎(chǔ)模型的發(fā)展。SAM 是一個(gè)提示型模型,其在 1100 萬(wàn)張圖像上訓(xùn)練了超過(guò) 10 億個(gè)掩碼,實(shí)現(xiàn)了強(qiáng)大的零樣本泛化。許多研究人員認(rèn)為「這是 CV 的 GPT-3 時(shí)刻,因?yàn)?SAM 已經(jīng)學(xué)會(huì)了物體是什么的一般概念,甚至是未知的物體、不熟悉的場(chǎng)景(如水下、細(xì)胞顯微鏡)和模糊的情況」,并展示了作為 CV 基本模型的巨大潛力。為了充分了解 SAM,來(lái)自香港科技大學(xué)(廣州)、上海交大等機(jī)構(gòu)的研究者對(duì)其進(jìn)行了深入研究并聯(lián)合發(fā)表論文《 A Comprehensive Survey on Segment Anything Model for Vision and Beyond 》。

論文鏈接:https://arxiv.org/abs/2305.08196作為首個(gè)全面介紹基于 SAM 基礎(chǔ)模型進(jìn)展的研究,該論文聚焦于 SAM 在各種任務(wù)和數(shù)據(jù)類(lèi)型上的應(yīng)用,并討論了其歷史發(fā)展、近期進(jìn)展,以及對(duì)廣泛應(yīng)用的深遠(yuǎn)影響。本文首先介紹了包括 SAM 在內(nèi)的基礎(chǔ)模型的背景和術(shù)語(yǔ),以及對(duì)分割任務(wù)有重要意義的最新方法;然后,該研究分析并總結(jié)了 SAM 在各種圖像處理應(yīng)用中的優(yōu)勢(shì)和限制,包括軟件場(chǎng)景、真實(shí)世界場(chǎng)景和復(fù)雜場(chǎng)景,重要的是,該研究得出了一些洞察,以指導(dǎo)未來(lái)的研究發(fā)展更多用途廣泛的基礎(chǔ)模型并改進(jìn) SAM 的架構(gòu);最后該研究還總結(jié)了 SAM 在視覺(jué)及其他領(lǐng)域的應(yīng)用。下面我們看看論文具體內(nèi)容。SAM 模型概覽SAM 源自于 2023 年 Meta 的 Segment Anything (SA) 項(xiàng)目。該項(xiàng)目發(fā)現(xiàn)在 NLP 和 CV 領(lǐng)域中出現(xiàn)的基礎(chǔ)模型表現(xiàn)出較強(qiáng)的性能,研究人員試圖建立一個(gè)類(lèi)似的模型來(lái)統(tǒng)一整個(gè)圖像分割任務(wù)。然而,在分割領(lǐng)域的可用數(shù)據(jù)較為缺乏,這與他們的設(shè)計(jì)目的不同。因此,如圖 1 所示,研究者將路徑分為任務(wù)、模型和數(shù)據(jù)三個(gè)步驟。





———————End———————
RT-Thread線(xiàn)下入門(mén)培訓(xùn)
7月 - 上海,南京
1.免費(fèi)2.動(dòng)手實(shí)驗(yàn)+理論3.主辦方免費(fèi)提供開(kāi)發(fā)板4.自行攜帶電腦,及插線(xiàn)板用于筆記本電腦充電5.參與者需要有C語(yǔ)言、單片機(jī)(ARM Cortex-M核)基礎(chǔ),請(qǐng)?zhí)崆鞍惭b好RT-Thread Studio 開(kāi)發(fā)環(huán)境
報(bào)名通道
立即掃碼報(bào)名
(報(bào)名成功即可參加)
掃碼添加rtthread2020可參加活動(dòng)可加微信拉進(jìn)活動(dòng)現(xiàn)場(chǎng)微信群
主辦單位
報(bào)名鏈接:https://jinshuju.net/f/UYxS2k
點(diǎn)擊閱讀原文,進(jìn)入RT-Thread 官網(wǎng)
原文標(biāo)題:【AI簡(jiǎn)報(bào)20230616】英偉達(dá)推出Instinct MI300、OpenAI凌晨再給ChatGPT、GPT-4加碼!
文章出處:【微信公眾號(hào):RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
RT-Thread
+關(guān)注
關(guān)注
32文章
1409瀏覽量
41958
原文標(biāo)題:【AI簡(jiǎn)報(bào)20230616】英偉達(dá)推出Instinct MI300、OpenAI凌晨再給ChatGPT、GPT-4加碼!
文章出處:【微信號(hào):RTThread,微信公眾號(hào):RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
擺脫依賴(lài)英偉達(dá)!OpenAI首次轉(zhuǎn)向使用谷歌芯片
OpenAI簡(jiǎn)化大模型選擇:薩姆·奧特曼制定路線(xiàn)圖
OpenAI即將發(fā)布GPT-4.5與GPT-5
OpenAI即將推出GPT-5模型
AMD將DeepSeek-V3模型集成至Instinct MI300X GPU
消息稱(chēng)AMD Instinct MI400 AI加速器將配備8個(gè)計(jì)算芯片
AMD集成DeepSeek-V3模型至Instinct MI300X GPU
OpenAI將發(fā)布更智能GPT模型及AI智能體工具
英偉達(dá)GB300 AI服務(wù)器訂單配置初定
IBM與AMD攜手將在IBM云上部署AMD Instinct MI300X加速器
OpenAI調(diào)整硬件戰(zhàn)略:2026年起將自研AI芯片
解鎖 GPT-4o!2024 ChatGPT Plus 代升級(jí)全攻略(附國(guó)內(nèi)支付方法)
Llama 3 與 GPT-4 比較
三星首度引入AMD MI300X,緩解AI GPU短缺
OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快 API KEY更便宜

評(píng)論