chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DeepSeek發(fā)表重磅論文!推出NSA技術(shù),讓AI模型降本增效

章鷹觀察 ? 來(lái)源:電子發(fā)燒友原創(chuàng) ? 作者:章鷹 ? 2025-02-19 10:22 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

(電子發(fā)燒友報(bào)道 文/章鷹)2月18日,在馬斯克的xAI公司發(fā)布了Grok3大模型后,中國(guó)公司深度探索公司推出了用于超快速長(zhǎng)文本訓(xùn)練訓(xùn)練與推理的“原生稀疏注意力”(Native Sparse Attention,簡(jiǎn)稱 NSA)。

DeepSeek在arXiv上上傳了一篇介紹 NSA 的論文。根據(jù) arXiv 網(wǎng)站上發(fā)布的論文摘要顯示,“我們提出了NSA,這是一種原生可訓(xùn)練的稀疏注意力機(jī)制,它將算法創(chuàng)新與硬件對(duì)齊的優(yōu)化相結(jié)合,以實(shí)現(xiàn)高效的長(zhǎng)上下文建模。”

論文稱,NSA 在通用基準(zhǔn)檢驗(yàn)、長(zhǎng)文本任務(wù)和基于指令的推理中均能達(dá)到或超越全注意力模型的表現(xiàn)。稀疏注意力為提高效率同時(shí)保持模型能力提供了一個(gè)有前景的方向。

實(shí)驗(yàn)顯示,NSA 不僅在通用任務(wù)和長(zhǎng)上下文任務(wù)中表現(xiàn)出色,還在例如鏈?zhǔn)酵评淼葟?fù)雜任務(wù)中展現(xiàn)強(qiáng)大的潛力,且推理速度加快。

在通用基準(zhǔn)檢驗(yàn)、長(zhǎng)文本處理以及基于指令的推理任務(wù)中,NSA 的表現(xiàn)均能達(dá)到甚至超越傳統(tǒng)全注意力(Full Attention)模型的水平,以性價(jià)比極高的方式,罕見地在訓(xùn)練階段應(yīng)用稀疏性,在訓(xùn)練推理場(chǎng)景中顯著提升速度,特別是在譯碼階段實(shí)現(xiàn)高達(dá) 11.6 倍的提升。

透過(guò)高效的長(zhǎng)序列處理能力,NSA 使模型能夠直接處理整本書、代碼庫(kù)或多輪對(duì)話(如千輪客服場(chǎng)景),擴(kuò)展大語(yǔ)言模型在文文件分析、代碼生成、復(fù)雜推理等領(lǐng)域的應(yīng)用邊界。例如,Gemini 1.5 Pro 已展示長(zhǎng)上下文的潛力,NSA 能進(jìn)一步降低這類模型的訓(xùn)練與推理成本。

在這篇名題為「原生稀疏注意力:硬件對(duì)齊且可原生訓(xùn)練的稀疏注意力機(jī)制」(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的論文署名中,DeepSeek 創(chuàng)始人梁文鋒也是共同作者。

中國(guó)人工智能軟件巨頭商湯科技智能產(chǎn)業(yè)研究院前院長(zhǎng)田鋒表示,隨著全球人工智能競(jìng)爭(zhēng)持續(xù)升溫,不同的公司在不同領(lǐng)域展示了競(jìng)爭(zhēng)優(yōu)勢(shì)。據(jù)田鋒介紹,DeepSeek 開發(fā)的資源高效的開源模型在數(shù)學(xué)推理和軟件工程任務(wù)方面表現(xiàn)出色,而 OpenAI 的 o1 在一般知識(shí)和解決問(wèn)題方面表現(xiàn)更佳。

我們看到,來(lái)自中國(guó)人工智能公司還展示了各種優(yōu)勢(shì),包括競(jìng)爭(zhēng)性能和成本效益。田鋒強(qiáng)調(diào):“通過(guò)利用替代數(shù)據(jù)源、開發(fā)自主技術(shù)以及促進(jìn)國(guó)內(nèi)技術(shù)生態(tài)系統(tǒng)內(nèi)的合作,DeepSeek 和其他中國(guó)人工智能公司能夠創(chuàng)造出不僅滿足國(guó)內(nèi)需求而且能夠提高全球競(jìng)爭(zhēng)力的解決方案,”

這是自1月20日DeepSeek發(fā)布R1模型震撼AI圈以來(lái),DeepSeek首次發(fā)布的技術(shù)動(dòng)態(tài)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI大模型
    +關(guān)注

    關(guān)注

    0

    文章

    376

    瀏覽量

    618
  • DeepSeek
    +關(guān)注

    關(guān)注

    1

    文章

    798

    瀏覽量

    1760
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】書籍介紹+第一章讀后心得

    實(shí)現(xiàn)三重超越;而對(duì)開源生態(tài)、技術(shù)趨勢(shì)的前瞻探討,則印證了DeepSeek“用開源擊穿技術(shù)壁壘”的初心。 當(dāng)DeepSeek-R1以60TPS的生成速度刷新認(rèn)知,當(dāng)蒸餾
    發(fā)表于 07-17 11:59

    【書籍評(píng)測(cè)活動(dòng)NO.62】一本書讀懂 DeepSeek 全家桶核心技術(shù)DeepSeek 核心技術(shù)揭秘

    析和前瞻性的行業(yè)洞察,為技術(shù)人員、研究人員和大模型相關(guān)技術(shù)愛好者提供了寶貴的學(xué)習(xí)資料。 本書目錄結(jié)構(gòu) 第1章介紹 DeepSeek 的一系列技術(shù)
    發(fā)表于 06-09 14:38

    IBM探索AI驅(qū)動(dòng)的降本增效新路徑

    AI 驅(qū)動(dòng)已成為企業(yè)降本增效的戰(zhàn)略級(jí)引擎,其價(jià)值實(shí)現(xiàn)不在于技術(shù)本身,而在于與業(yè)務(wù)場(chǎng)景的深度融合。IBM 咨詢提出的"戰(zhàn)略規(guī)劃+運(yùn)營(yíng)管理"雙軌并行模式,突破傳統(tǒng)單點(diǎn)優(yōu)化的局限,構(gòu)建
    的頭像 發(fā)表于 05-22 15:29 ?360次閱讀

    福田歐曼銀河5助力物流運(yùn)輸行業(yè)降本增效

    在物流運(yùn)輸行業(yè)競(jìng)爭(zhēng)日趨白熱化的當(dāng)下,每一分成本削減與效率提升都直接關(guān)乎用戶的生存空間,而運(yùn)輸效率與運(yùn)營(yíng)效益已成為檢驗(yàn)重卡性能的核心指標(biāo)。面對(duì)行業(yè)降本增效的迫切需求,歐曼銀河5精準(zhǔn)錨定用戶痛點(diǎn),從動(dòng)
    的頭像 發(fā)表于 05-20 09:23 ?420次閱讀

    PLC遠(yuǎn)程維護(hù)上下載,降本增效減少出差的利器

    PLC(可編程邏輯控制器)遠(yuǎn)程維護(hù)上下載技術(shù)已成為現(xiàn)代工業(yè)領(lǐng)域降本增效、減少出差的核心工具,尤其在工業(yè)4.0與物聯(lián)網(wǎng)技術(shù)推動(dòng)下,價(jià)值愈發(fā)凸顯。對(duì)此,數(shù)之能提供PLC遠(yuǎn)程編程調(diào)試和遠(yuǎn)程上下載程序等
    的頭像 發(fā)表于 05-19 11:17 ?202次閱讀
    PLC遠(yuǎn)程維護(hù)上下載,<b class='flag-5'>降本增效</b>減少出差的利器

    Deepseek海思SD3403邊緣計(jì)算AI產(chǎn)品系統(tǒng)

    的訓(xùn)練樣本和訓(xùn)練 模型,具體商業(yè)價(jià)值和保密性,采用海思SD3403邊緣計(jì)算AI服務(wù)器+多路安防監(jiān)控IPC,差異化AI視頻系統(tǒng), 成本控制極具市場(chǎng)競(jìng)爭(zhēng)力。 海思SD3403邊緣計(jì)算
    發(fā)表于 04-28 11:05

    首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件端側(cè)AI模型接入得心應(yīng)手

    的端側(cè)部署,Token產(chǎn)生速度提升了40%,端側(cè)大模型擁有更高的計(jì)算效率和推理性能,使端側(cè)AI交互響應(yīng)更及時(shí),用戶體驗(yàn)更貼心。 聯(lián)發(fā)科還與vivo和全民K歌攜手,借助天璣AI人聲萃
    發(fā)表于 04-13 19:52

    RK3588開發(fā)板上部署DeepSeek-R1大模型的完整指南

    DeepSeek作為國(guó)產(chǎn)AI大數(shù)據(jù)模型的代表,憑借其卓越的推理能力和高效的文本生成技術(shù),在全球人工智能領(lǐng)域引發(fā)廣泛關(guān)注。DeepSeek-R
    發(fā)表于 02-27 16:45

    添越智創(chuàng)基于 RK3588 開發(fā)板部署測(cè)試 DeepSeek 模型全攻略

    AI 技術(shù)日新月異的當(dāng)下,新的模型與突破不斷涌現(xiàn)。近期,DeepSeek(深度求索)模型以其卓越性能和親民成本,迅速在全球開發(fā)者圈子里
    發(fā)表于 02-14 17:42

    了解DeepSeek-V3 和 DeepSeek-R1兩個(gè)大模型的不同定位和應(yīng)用選擇

    DeepSeek-V3 和 DeepSeek-R1 是深度求索公司(DeepSeek推出的兩個(gè)不同定位的大模型,其核心差異主要體現(xiàn)在目標(biāo)場(chǎng)
    發(fā)表于 02-14 02:08

    deepin UOS AI接入DeepSeek-R1模型

    DeepSeek-R1 模型自發(fā)布以來(lái)吸引了眾多用戶關(guān)注,為了 deepin 用戶更好地體驗(yàn)這一前沿技術(shù),UOS AI 現(xiàn)已適配接入
    的頭像 發(fā)表于 02-08 09:52 ?1094次閱讀

    戴爾科技助力企業(yè)實(shí)現(xiàn)科學(xué)的降本增效

    降本增效作為一個(gè)老生常談的話題,盡管在多年的實(shí)踐中各種策略和方法層出不窮,但真正實(shí)現(xiàn)成本削減和效率提升的路徑依然不明確,一不小心就變成了“降本降效”。
    的頭像 發(fā)表于 10-29 15:19 ?736次閱讀

    光伏電站智慧運(yùn)維系統(tǒng)助力光伏電站降本增效

    光伏電站智慧運(yùn)維系統(tǒng)助力光伏電站降本增效 隨著光伏行業(yè)的不斷發(fā)展,光伏運(yùn)維的重要性日益提升,因此公眾智能監(jiān)測(cè)結(jié)合相關(guān)的計(jì)算機(jī)技術(shù)和數(shù)據(jù)處理技術(shù),自主研發(fā)了光伏電站智慧運(yùn)維系統(tǒng),該系
    的頭像 發(fā)表于 09-06 16:50 ?893次閱讀
    光伏電站智慧運(yùn)維系統(tǒng)助力光伏電站<b class='flag-5'>降本增效</b>

    AR眼鏡:醫(yī)藥廠商降本增效新利器

    在快速迭代的醫(yī)藥行業(yè)中,每一分效率的提升都意味著更多的機(jī)遇與成本節(jié)約。面對(duì)復(fù)雜多變的市場(chǎng)環(huán)境,特別是疫情帶來(lái)的挑戰(zhàn),醫(yī)藥廠商們正積極尋求創(chuàng)新與突破。讓我們一同探索AR眼鏡如何成為醫(yī)藥廠商降本增效的得力
    的頭像 發(fā)表于 07-23 13:39 ?623次閱讀

    直線電機(jī)模組:米思米如何以“磁”之力,引領(lǐng)降本增效新風(fēng)尚?

    在“降本增效”成為企業(yè)共識(shí)的今天,米思米直線電機(jī)模組以其獨(dú)特的磁力驅(qū)動(dòng)技術(shù)、優(yōu)化的結(jié)構(gòu)設(shè)計(jì)以及高性價(jià)比優(yōu)勢(shì)脫穎而出成為了眾多企業(yè)的首選。
    的頭像 發(fā)表于 07-23 11:16 ?676次閱讀