chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

Transformer模型的具體應用

NVIDIA英偉達 ? 來源:NVIDIA英偉達 ? 2024-11-20 09:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

如果想在 AI 領域引領一輪新浪潮,就需要使用到 Transformer。

盡管名為 Transformer,但它們不是電視銀幕上的變形金剛,也不是電線桿上垃圾桶大小的變壓器。

在上一篇《什么是 Transformer 模型(一)》中,通過對 Transformer 模型進行的深入剖析,展開了一幅 AI 領域的創(chuàng)新畫卷,本篇文章將聚焦于該模型在現(xiàn)實世界各個領域中的具體應用,以及這些應用如何改變我們的生活和工作方式,展望其在未來人工智能發(fā)展中的潛在影響。

讓 Transformer 發(fā)揮作用

很快,Transformer 模型就被應用于科學和醫(yī)療領域。

倫敦的 DeepMind 使用一種名為 AlphaFold2 的 Transformer 加深了對蛋白質(zhì)這一生命基礎要素的理解。最近《自然》期刊上的一篇文章對該 Transformer 進行了描述。這種 Transformer 能夠像處理文本字符串一樣處理氨基酸鏈,為描述蛋白質(zhì)的折疊方式打開了新的思路,這項研究可以加快藥物發(fā)現(xiàn)的速度。

阿斯利康和 NVIDIA 共同開發(fā)了一個專為藥物發(fā)現(xiàn)量身定制的 Transformer MegaMolBART。MegaMolBART 是該制藥公司 MolBART Transformer 的一個版本,使用 NVIDIA Megatron 在一個大型、無標記的化合物數(shù)據(jù)庫上訓練,以創(chuàng)建大規(guī)模 Transformer 模型。

閱讀分子和醫(yī)療記錄

阿斯利康分子 AI、發(fā)現(xiàn)科學和研發(fā)部門負責人 Ola Engkvist 在 2020 年宣布這項工作時表示:“正如 AI 語言模型可以學習句子中單詞之間的關系一樣,我們的目標是使在分子結構數(shù)據(jù)上訓練而成的神經(jīng)網(wǎng)絡能夠?qū)W習現(xiàn)實世界分子中原子之間的關系?!?/p>

為了從大量臨床數(shù)據(jù)中提煉洞察,加快醫(yī)學研究的速度,佛羅里達大學學術健康中心與 NVIDIA 研究人員聯(lián)合創(chuàng)建了 GatorTron 這個 Transformer 模型。

Transformer 增長

在研究過程中,研究人員發(fā)現(xiàn)大型 Transformer 性能更好。

慕尼黑工業(yè)大學 Rostlab 的研究人員推動著 AI 與生物學交叉領域的前沿研究,他們利用自然語言處理技術來了解蛋白質(zhì)。該團隊在 18 個月的時間里,從使用具有 9000 萬個參數(shù)的 RNN 升級到具有 5.67 億個參數(shù)的 Transformer 模型。

Rostlab 研究人員展示了在沒有標記樣本的情況下訓練的語言模型所捕捉到的蛋白質(zhì)序列信號

OpenAI 實驗室的生成式預訓練 Transformer(GPT)證明了模型的規(guī)模越大越好。其最新版本 GPT-3 有 1750 億個參數(shù),而 GPT-2 只有 15 億個。

憑借更多的參數(shù),GPT-3 即使在沒有經(jīng)過專門訓練的情況下,也能回答用戶的問詢。思科、IBM、Salesforce 等公司已經(jīng)在使用 GPT-3。

巨型 Transformer 的故事

NVIDIA 和微軟在 2022 年 11 月發(fā)布了擁有 5300 億個參數(shù)的 Megatron-Turing 自然語言生成模型(MT-NLG)。與它一起發(fā)布的框架 NVIDIA NeMo Megatron 旨在讓任何企業(yè)都能創(chuàng)建自己的十億或萬億參數(shù) Transformer,為自定義聊天機器人、個人助手以及其他能理解語言的 AI 應用提供助力。

MT-NLG 首次公開亮相是作為 Toy Jensen(TJ)虛擬形象的大腦,幫助 TJ 在 NVIDIA 2021 年 11 月的 GTC 上發(fā)表了一部分主題演講。

負責 NVIDIA 團隊訓練該模型的 Mostofa Patwary 表示:“當我們看到 TJ 回答問題時,他作為我們的首席執(zhí)行官展示我們的工作成果,那一刻真是令人振奮?!?/p>

創(chuàng)建這樣的模型并非易事。MT-NLG 使用數(shù)千億個數(shù)據(jù)元素訓練而成,整個過程需要數(shù)千顆 GPU 運行數(shù)周時間。

Patwary 表示:“訓練大型 Transformer 模型既昂貴又耗時,如果前一兩次沒有成功,項目就可能被取消?!?/p>

萬億參數(shù) Transformer

如今,許多 AI 工程師正在研究萬億參數(shù) Transformer 及其應用。

Patwary 表示:“我們一直在研究這些大模型如何提供更好的應用。我們還在研究它們會在哪些方面失敗,這樣就能創(chuàng)建出更好、更大的模型?!?/p>

為了提供這些模型所需的算力,NVIDIA 的加速器內(nèi)置了一個 Transformer 引擎并支持新的 FP8 格式,既加快了訓練速度,又保持了準確性。

黃仁勛在 GTC 2022 上表示,通過這些及其他方面的進步,“Transformer 模型的訓練時間可以從數(shù)周縮短到數(shù)天?!?/p>

TJ 在 GTC 2022 上表示:“Megatron 能幫助我回答黃仁勛拋給我的所有難題?!?/p>

MoE 對于 Transformer 的意義更大

谷歌研究人員 2021 年介紹的 Switch Transformer 是首批萬億參數(shù)模型之一。該模型利用 AI 稀疏性、復雜的混合專家(MoE)架構等先進技術提高了語言處理性能并使預訓練速度加快了最多 7 倍。

8cb8f6e8-9ffe-11ef-93f3-92fbcf53809c.jpg

首個擁有多達一萬億個參數(shù)模型 Switch Transformer 的編碼器

微軟 Azure 則與 NVIDIA 合作,在其翻譯服務中使用了 MoE Transformer。

解決 Transformer 所面臨的挑戰(zhàn)

如今,一些研究人員的目標是開發(fā)出性能與那些最大的模型相同、但參數(shù)更少并且更簡單的 Transformer。

Cohere 的 Gomez 以 DeepMind 的 Retro 模型為例:“我看到基于檢索的模型將大有可為并實現(xiàn)彎道超車,對此我感到非常興奮?!?/p>

基于檢索的模型通過向數(shù)據(jù)庫提交查詢來進行學習。他表示:“這很酷,因為你可以對放到知識庫中的內(nèi)容進行選擇?!?/p>

8ccbe12c-9ffe-11ef-93f3-92fbcf53809c.jpg

在追求更高性能的過程中,Transformer 模型的規(guī)模也在不斷擴大

Vaswani 現(xiàn)在是一家隱形 AI 初創(chuàng)公司的聯(lián)合創(chuàng)始人,他表示最終目標是“讓這些模型像人類一樣,在現(xiàn)實世界中使用極少的數(shù)據(jù)就能從上下文中學習?!?/p>

他想象未來的模型可以在前期進行更多計算,從而減少對數(shù)據(jù)的需求,使用戶能夠更好地提供反饋。

“我們的目標是創(chuàng)建能夠在日常生活中幫助人們的模型。”

安全、負責任的模型

其他研究人員正在研究如何在模型放大錯誤或有害語言時消除偏見或有害性,例如斯坦福大學專門創(chuàng)建了基礎模型研究中心探究這些問題。

NVIDIA 研究科學家 Shrimai Prabhumoye 是業(yè)內(nèi)眾多研究這一領域的人士之一。他表示:“這些都是在安全部署模型前需要解決的重要問題?!?/p>

“如今,大多數(shù)模型需要的是特定的單詞或短語。但在現(xiàn)實生活中,這些內(nèi)容可能會以十分微妙的方式呈現(xiàn),因此我們必須考慮整個上下文?!?/p>

Gomez 表示:“這也是 Cohere 最關心的問題。如果這些模型會傷害到人,就不會有人使用它們,所以創(chuàng)建最安全、最負責任的模型是最基本的要求?!?/p>

展望未來

在 Vaswani 的想象中,未來能夠自我學習、由注意力驅(qū)動的 Transformer 最有可能成為 AI 的“殺手锏”。

他表示:“我們現(xiàn)在有機會實現(xiàn)人們在創(chuàng)造‘通用人工智能’一詞時提到的一些目標,我覺得這給我們帶來了巨大的啟發(fā)。”

“在當前這個時代,神經(jīng)網(wǎng)絡等各種簡單的方法正在賦予我們大量新的能力?!?/p>

小結

本文通過對 Transformer 模型的應用案例進行了梳理,并對其未來的發(fā)展方向進行了預測。從生物醫(yī)藥到科學研究,該模型不僅在技術上取得了突破,更在實際應用中展現(xiàn)了其深遠的影響力和廣闊的前景。本文系列內(nèi)容到此已經(jīng)對 Transformer 模型如何擴展我們對于機器學習和 AI 的想象進行了深入介紹。隨著技術的不斷進步,Transformer 模型將在 AI 的新時代中扮演著更加關鍵的角色,推動各行各業(yè)的創(chuàng)新與變革。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5309

    瀏覽量

    106421
  • AI
    AI
    +關注

    關注

    88

    文章

    35164

    瀏覽量

    280003
  • 模型
    +關注

    關注

    1

    文章

    3521

    瀏覽量

    50430
  • Transformer
    +關注

    關注

    0

    文章

    151

    瀏覽量

    6522

原文標題:什么是 Transformer 模型(二)

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Transformer架構中編碼器的工作流程

    編碼器是Transformer體系結構的基本組件。編碼器的主要功能是將輸入標記轉(zhuǎn)換為上下文表示。與早期獨立處理token的模型不同,Transformer編碼器根據(jù)整個序列捕獲每個token的上下文。
    的頭像 發(fā)表于 06-10 14:27 ?296次閱讀
    <b class='flag-5'>Transformer</b>架構中編碼器的工作流程

    Transformer架構概述

    由于Transformer模型的出現(xiàn)和快速發(fā)展,深度學習領域正在經(jīng)歷一場翻天覆地的變化。這些突破性的架構不僅重新定義了自然語言處理(NLP)的標準,而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發(fā)表于 06-10 14:24 ?345次閱讀
    <b class='flag-5'>Transformer</b>架構概述

    從FA模型切換到Stage模型時:module的切換說明

    module的切換 從FA模型切換到Stage模型時,開發(fā)者需要將config.json文件module標簽下的配置遷移到module.json5配置文件module標簽下,具體差異
    發(fā)表于 06-05 08:16

    如何使用MATLAB構建Transformer模型

    Transformer 模型在 2017 年由 Vaswani 等人在論文《Attentionis All You Need》中首次提出。其設計初衷是為了解決自然語言處理(Nature
    的頭像 發(fā)表于 02-06 10:21 ?4051次閱讀
    如何使用MATLAB構建<b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>

    transformer專用ASIC芯片Sohu說明

    的舊圖像模型,也不能運行CNN、RNN或LSTM。 但對于transformer來說,Sohu是有史以來最快的芯片。 借助Llama 70B每秒超過50萬個token的吞吐量,Sohu可以讓您構建在GPU上無法實現(xiàn)的產(chǎn)品
    的頭像 發(fā)表于 01-06 09:13 ?1159次閱讀
    <b class='flag-5'>transformer</b>專用ASIC芯片Sohu說明

    【「具身智能機器人系統(tǒng)」閱讀體驗】2.具身智能機器人大模型

    近年來,人工智能領域的大模型技術在多個方向上取得了突破性的進展,特別是在機器人控制領域展現(xiàn)出了巨大的潛力。在“具身智能機器人大模型”部分,作者研究并探討了大模型如何提升機器人的能力,大模型
    發(fā)表于 12-29 23:04

    知行科技大模型研發(fā)體系初見效果

    Transformer)模型作為教師,CNN網(wǎng)絡作為學生進行學習。推進異構神經(jīng)網(wǎng)絡間知識蒸餾研究的具體范式/方法,被收錄于NeurIPS 2024(第38屆神經(jīng)信息處理系統(tǒng)會議)。
    的頭像 發(fā)表于 12-27 09:38 ?626次閱讀
    知行科技大<b class='flag-5'>模型</b>研發(fā)體系初見效果

    【「大模型啟示錄」閱讀體驗】+開啟智能時代的新鑰匙

    那些擁有數(shù)十億甚至數(shù)千億參數(shù)的大規(guī)模模型成為了現(xiàn)實可能。Transformer 等機制模型架構的橫空出世,徹底改變了模型訓練的效率和性能。 我有時在想國外為何能夠在大
    發(fā)表于 12-24 13:10

    【「大模型啟示錄」閱讀體驗】如何在客服領域應用大模型

    多個因素以確保所選模型能夠滿足企業(yè)的具體需求和目標。首先,企業(yè)需要明確自己的客服需求和目標。例如,是否需要24小時在線客服服務?是否需要處理復雜問題的能力?是否需要個性化服務?明確這些需求有助于企業(yè)更好
    發(fā)表于 12-17 16:53

    飛龍入海:ANSYS官方的大模型應用

    寫在前面的話 大模型差不多是一項發(fā)明,其重要性不亞于電的發(fā)現(xiàn)和電燈的發(fā)明。 大模型的基礎是使用Transformer算法識別了人類語言(大致等同于人類的思維邏輯)的內(nèi)在關系和特征,學習了海量知識
    的頭像 發(fā)表于 11-26 10:54 ?1004次閱讀
    飛龍入海:ANSYS官方的大<b class='flag-5'>模型</b>應用

    Transformer模型能夠做什么

    盡管名為 Transformer,但它們不是電視銀幕上的變形金剛,也不是電線桿上垃圾桶大小的變壓器。
    的頭像 發(fā)表于 11-20 09:27 ?1018次閱讀
    <b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>能夠做什么

    自動駕駛中一直說的BEV+Transformer到底是個啥?

    (Bird’s Eye View)+Transformer”是兩個方向的技術,BEV是一種全新的3D坐標系,而Transformer則是一種深度學習神經(jīng)網(wǎng)絡模型,BEV+Transformer
    的頭像 發(fā)表于 11-07 11:19 ?1387次閱讀
    自動駕駛中一直說的BEV+<b class='flag-5'>Transformer</b>到底是個啥?

    Llama 3 模型與其他AI工具對比

    、技術架構 Llama 3模型 采用了最新的Transformer架構,并結合了自注意力機制和分組查詢關注(GQA)機制。 引入了高效的tokenizer和RoPE位置編碼,提高了語言編碼和長文
    的頭像 發(fā)表于 10-27 14:37 ?1070次閱讀

    英偉達推出歸一化Transformer,革命性提升LLM訓練速度

    了新的突破。 相較于傳統(tǒng)的Transformer架構,nGPT在保持原有精度的同時,直接將大型語言模型(LLM)的訓練速度提升了高達20倍。這一顯著的性能提升,無疑將極大地推動AI技術的發(fā)展和應用。 在nGPT中,所有的向量(包括嵌入向量、多層感知機(MLP)向量、注意力
    的頭像 發(fā)表于 10-23 11:30 ?883次閱讀

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    習語言的表達方式和生成能力。通過預測文本中缺失的部分或下一個詞,模型逐漸掌握語言的規(guī)律和特征。 常用的模型結構 Transformer架構:大語言模型通?;?/div>
    發(fā)表于 08-02 11:03