chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Ampere 架構(gòu)的結(jié)構(gòu)化稀疏功能及其在搜索引擎中的應(yīng)用

NVIDIA英偉達(dá) ? 來(lái)源:未知 ? 2023-07-18 17:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

NVIDIA Ampere 架構(gòu)的結(jié)構(gòu)化稀疏功能

及其在搜索引擎中的應(yīng)用

深度學(xué)習(xí)徹底改變了我們分析、理解和處理數(shù)據(jù)的方式,而且在各個(gè)領(lǐng)域的應(yīng)用中都取得了巨大的成功,其在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、醫(yī)療診斷和醫(yī)療保健、自動(dòng)駕駛汽車、推薦系統(tǒng)以及氣候和天氣建模方面有許多成功案例。

神經(jīng)網(wǎng)絡(luò)模型不斷變大的時(shí)代,對(duì)計(jì)算速度的高需求對(duì)硬件和軟件都形成了巨大的挑戰(zhàn)。模型剪枝和低精度推理是非常有效的解決方案。

自 NVIDIA Ampere 架構(gòu)開(kāi)始, 隨著 A100 Tensor Core GPU 的推出,NVIDIA GPU 提供了可用于加速推理的細(xì)粒度結(jié)構(gòu)化稀疏功能。在本文中,我們將介紹此類稀疏模型的訓(xùn)練方法以保持模型精度,包括基本訓(xùn)練方法、漸進(jìn)式訓(xùn)練方法以及與 int8 量化的結(jié)合。我們還將介紹如何利用 Ampere 架構(gòu)的結(jié)構(gòu)化稀疏功能進(jìn)行推理。

騰訊機(jī)器學(xué)習(xí)平臺(tái)部門 (MLPD) 利用了漸進(jìn)式訓(xùn)練方法,簡(jiǎn)化了稀疏模型訓(xùn)練并實(shí)現(xiàn)了更高的模型精度。借助稀疏功能和量化技術(shù),他們?cè)隍v訊的離線服務(wù)中實(shí)現(xiàn)了 1.3 倍~1.8 倍的加速。

NVIDIA Ampere 架構(gòu)的結(jié)構(gòu)化稀疏功能

NVIDIA Ampere NVIDIA Hopper 架構(gòu) GPU 增加了新的細(xì)粒度結(jié)構(gòu)化稀疏功能,該功能主要用于加速推理。此功能是由稀疏 Tensor Core 提供,這些稀疏 Tensor Core 需要 2:4 的稀疏模式。也就是說(shuō),以 4 個(gè)相鄰權(quán)重為一組,其中至少有 2 個(gè)權(quán)重必須為 0,即 50% 的稀疏率。

這種稀疏模式可實(shí)現(xiàn)高效的內(nèi)存訪問(wèn)能力,有效的模型推理加速,并可輕松恢復(fù)模型精度。在模型壓縮后,存儲(chǔ)格式只存儲(chǔ)非零值和相應(yīng)的索引元數(shù)據(jù)(圖 1)。稀疏 Tensor Core 在執(zhí)行矩陣乘法時(shí)僅處理非零值,理論上,計(jì)算吞吐量是同等稠密矩陣乘法的 2 倍。

201e104e-254e-11ee-962d-dac502259ad0.png

圖 1. 2:4 結(jié)構(gòu)化稀疏模式及其壓縮格式

(結(jié)構(gòu)化稀疏矩陣具有 2:4 的稀疏模式。在 4 個(gè)相鄰權(quán)重當(dāng)中,至少有 2 個(gè)值為零。在模型壓縮后,僅存儲(chǔ)非零值和相應(yīng)的索引元數(shù)據(jù)。)

結(jié)構(gòu)化稀疏功能主要應(yīng)用于能夠提供 2:4 稀疏權(quán)重的全連接層和卷積層。如果提前對(duì)這些層的權(quán)重做剪枝,則這些層可以使用結(jié)構(gòu)化稀疏功能來(lái)進(jìn)行加速。

訓(xùn)練方法

由于直接對(duì)權(quán)重做剪枝會(huì)降低模型精度,因此在使用結(jié)構(gòu)化稀疏功能的時(shí)候,您需要進(jìn)行訓(xùn)練來(lái)恢復(fù)模型精度。下面,我們將介紹一些基本訓(xùn)練方法和新的漸進(jìn)式訓(xùn)練方法。

基本訓(xùn)練方法

基本訓(xùn)練方法可保持模型精度,并且無(wú)需任何超參數(shù)調(diào)優(yōu)。了解更多技術(shù)細(xì)節(jié),請(qǐng)參閱論文 Accelerating Sparse Deep Neural Networkshttps://arxiv.org/abs/2104.08378)。

基本訓(xùn)練方法易于使用,步驟如下:

  1. 訓(xùn)練一個(gè)常規(guī)稠密模型,不需要稀疏化的特殊處理。

  2. 對(duì)全連接層和卷積層上的權(quán)重以 2:4 的稀疏模式進(jìn)行剪枝。

  3. 按照以下規(guī)則重新訓(xùn)練經(jīng)過(guò)剪枝的模型:

    a. 將所有權(quán)重初始化為第 2 步中的值。

    b. 使用與第 1 步相同的優(yōu)化器和超參數(shù)(學(xué)習(xí)率、調(diào)度方法、訓(xùn)練次數(shù)等)進(jìn)行稀疏調(diào)優(yōu)訓(xùn)練。

    c. 保持第 2 步中剪枝后的稀疏模式。

20449b74-254e-11ee-962d-dac502259ad0.png

圖 2. 基本訓(xùn)練方法

(基本訓(xùn)練方法就是使用剪枝后的權(quán)重和掩碼后的優(yōu)化器重復(fù)原始稠密模型的訓(xùn)練過(guò)程。)

對(duì)于復(fù)雜情況,還有一些進(jìn)階的方法。

例如,把稀疏訓(xùn)練應(yīng)用在多階段式的稠密模型訓(xùn)練當(dāng)中。比如對(duì)于一些目標(biāo)檢測(cè)模型,如果下游任務(wù)的數(shù)據(jù)集足夠大,您只需做稀疏調(diào)優(yōu)訓(xùn)練。對(duì)于像 BERT-SQuAD 等模型,調(diào)優(yōu)階段使用的數(shù)據(jù)集相對(duì)較小,您則需要在預(yù)訓(xùn)練階段進(jìn)行稀疏訓(xùn)練以獲得更好的模型精度。

此外,通過(guò)在稀疏調(diào)優(yōu)之前插入量化節(jié)點(diǎn),您可以輕松將稀疏調(diào)優(yōu)與 int8 量化調(diào)優(yōu)結(jié)合起來(lái)。所有這些訓(xùn)練以及調(diào)優(yōu)方法都是一次性的,即最終獲得的模型只需要經(jīng)過(guò)一次稀疏訓(xùn)練處理。

漸進(jìn)式稀疏訓(xùn)練方法

一次性稀疏調(diào)優(yōu)(fine-tuning)可以覆蓋大多數(shù)任務(wù),并在不損失精度的情況下實(shí)現(xiàn)加速。然而,就一些對(duì)權(quán)重?cái)?shù)值變化敏感的困難任務(wù)而言,對(duì)所有權(quán)重做一次性稀疏訓(xùn)練會(huì)導(dǎo)致大量信息損失。在小型數(shù)據(jù)集上只做稀疏化調(diào)優(yōu)可能會(huì)很難恢復(fù)精度,對(duì)于這些任務(wù)而言,就需要稀疏預(yù)訓(xùn)練(pretraining)。

然而稀疏預(yù)訓(xùn)練需要更多數(shù)據(jù),而且更加耗時(shí)。因此,受到卷積神經(jīng)網(wǎng)絡(luò)剪枝方法的啟發(fā),我們引入了漸進(jìn)式稀疏訓(xùn)練方法,在此類任務(wù)上僅應(yīng)用稀疏化調(diào)優(yōu)便可以實(shí)現(xiàn)模型的稀疏化,同時(shí)不會(huì)造成明顯的精度損失。了解更多細(xì)節(jié),請(qǐng)參閱論文 Learning both Weights and Connections for Efficient Neural Networkshttps://arxiv.org/pdf/1506.02626.pdf)。

206ecde0-254e-11ee-962d-dac502259ad0.png

圖 3. 漸進(jìn)式稀疏訓(xùn)練的概念

(漸進(jìn)式稀疏訓(xùn)練方法將稀疏率分為幾個(gè)步驟,以輕松恢復(fù)精度。漸進(jìn)式稀疏訓(xùn)練方法的核心思想是將目標(biāo)稀疏率進(jìn)行若干次切分。)

20a80858-254e-11ee-962d-dac502259ad0.png ?

如上述公式和圖 4 所示,對(duì)于目標(biāo)稀疏率 S,我們將其分為 N 份,這將有助于在稀疏調(diào)優(yōu)過(guò)程中快速恢復(fù)信息。根據(jù)我們的實(shí)驗(yàn),在相同的調(diào)優(yōu)迭代次數(shù)內(nèi),使用漸進(jìn)式稀疏訓(xùn)練相比一次性稀疏訓(xùn)練,可以獲得更高的模型精度。

20c801e4-254e-11ee-962d-dac502259ad0.png

圖 4. 漸進(jìn)式稀疏訓(xùn)練方法 (以 50% 稀疏率的 2:4 結(jié)構(gòu)化稀疏模式為例)

(漸進(jìn)式稀疏訓(xùn)練方法的示例:計(jì)算權(quán)重掩碼以達(dá)到 25% 稀疏率,再進(jìn)行稀疏調(diào)優(yōu)恢復(fù)性能,最后重新計(jì)算掩碼使之達(dá)到 50% 稀疏率并對(duì)網(wǎng)絡(luò)進(jìn)行調(diào)優(yōu)。)

我們以 50% 稀疏率的 2:4 結(jié)構(gòu)化稀疏為例,將稀疏率分為兩份,然后逐步稀疏和調(diào)優(yōu)模型中的權(quán)重參數(shù)。如圖 4 所示,首先計(jì)算權(quán)重掩碼以實(shí)現(xiàn) 25% 的稀疏率,然后執(zhí)行稀疏調(diào)優(yōu)以恢復(fù)模型精度。接下來(lái),重新對(duì)剩余權(quán)重計(jì)算權(quán)重掩碼以達(dá)到 50% 的稀疏率,并對(duì)網(wǎng)絡(luò)進(jìn)行調(diào)優(yōu),以獲得一個(gè)精度無(wú)損的稀疏模型。

Sparse-QAT:稀疏化與量化、蒸餾相結(jié)合

為了獲得更輕量的模型,我們進(jìn)一步將稀疏與量化、蒸餾相結(jié)合,即 Sparse-QAT。

量化(PTQ 和 QAT)

下方的公式表示一個(gè)通用的量化過(guò)程。對(duì)于 32 位浮點(diǎn)數(shù)值 x,我們使用 Q [x] 表示其具有 K-bits 表示的量化值。

20edee68-254e-11ee-962d-dac502259ad0.png

通常情況下,我們首先將原始參數(shù)量化到特定范圍,并將其近似為整數(shù)。然后,可以使用這個(gè)量化比例 scale (s) 來(lái)恢復(fù)原始值。這樣就得到了第一種量化方法,即校準(zhǔn),也稱為訓(xùn)練后量化(post-training quantization, PTQ)。在校準(zhǔn)中,一個(gè)關(guān)鍵的因素是要設(shè)置一個(gè)適當(dāng)?shù)牧炕壤╯cale)。如果這個(gè)比例值過(guò)大,量化范圍內(nèi)的數(shù)字將不太準(zhǔn)確。相反,如果這個(gè)比例值過(guò)小,會(huì)導(dǎo)致大量的數(shù)字落在 lmin 到 lmax 的范圍之外。因此,為了平衡這兩個(gè)方面,我們首先獲得張量中數(shù)值的統(tǒng)計(jì)分布,然后設(shè)置量化比例以覆蓋 99.99% 的數(shù)值。許多工作已經(jīng)證明,這種方法對(duì)于在校準(zhǔn)過(guò)程中找到合適的量化比例非常有幫助。

然而,盡管我們已經(jīng)為校準(zhǔn)設(shè)置了一個(gè)合理的量化比例,但是對(duì)于 8 bit 量化來(lái)說(shuō),模型精度仍然會(huì)顯著下降。因此,我們引入量化感知訓(xùn)練(quantization-aware training, QAT),以進(jìn)一步提高校準(zhǔn)后的精度。QAT 的核心思想是以模擬量化的方法來(lái)訓(xùn)練模型。

在前向傳播過(guò)程中,我們將權(quán)重量化為 int8,然后將其反量化為浮點(diǎn)數(shù)來(lái)模擬真實(shí)量化。在反向傳播過(guò)程中,引入 straight through estimation (STE) 的方法來(lái)更新模型權(quán)重。STE 的核心思想可以用如下公式表示:

2111f33a-254e-11ee-962d-dac502259ad0.png

由上述公式可知,閾值范圍內(nèi)的值對(duì)應(yīng)的梯度直接反向傳播,超出閾值范圍的值對(duì)應(yīng)的梯度被裁剪為 0。

知識(shí)蒸餾

除了上述方法外,我們還引入了知識(shí)蒸餾(knowledge distilation, KD),以進(jìn)一步確保 Sparse-QAT 模型的精度。我們以原始稠密模型作為教師模型,以量化稀疏模型作為學(xué)生模型。在調(diào)優(yōu)過(guò)程中,我們采用了 Mini-distillation,這是一種層級(jí)別的蒸餾方法。使用 MiniLM,我們只需要使用 Transformer 模型最后一層的輸出。引入蒸餾作為輔助工具甚至可以獲得比教師模型精度更高的稀疏量化學(xué)生模型。了解更多信息,請(qǐng)參閱 MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformershttps://arxiv.org/abs/2002.10957。

Sparse-QAT 訓(xùn)練流水線

圖 5 顯示了 Sparse-QAT 的訓(xùn)練流水線。稀疏化、量化、蒸餾以并行的方式執(zhí)行,最終獲得一個(gè)稀疏的 int8 量化模型。整個(gè)流水線包括如下三條路徑:

  • 在稀疏路徑中,應(yīng)用漸進(jìn)式稀疏化來(lái)獲取一個(gè)稀疏權(quán)重張量。

  • 在量化路徑中,使用 PTQ 和 QAT 來(lái)獲取 int8 類型的權(quán)重張量。

  • 在知識(shí)蒸餾路徑中,使用 MiniLM 來(lái)進(jìn)一步保障最終稀疏 int8 模型的精度。

2128e40a-254e-11ee-962d-dac502259ad0.png

圖 5. Sparse-QAT 流水線

(將稀疏、量化和知識(shí)蒸餾相結(jié)合,以獲得最終的稀疏 int8 模型。)

使用 NVIDIA Ampere 架構(gòu)的

結(jié)構(gòu)化稀疏功能進(jìn)行推理

在訓(xùn)練好稀疏模型后,您可以使用 NVIDIA TensorRTcuSPARSELt 庫(kù)來(lái)加速基于 NVIDIA Ampere 架構(gòu)結(jié)構(gòu)化稀疏功能的推理。

使用 NVIDIA TensorRT 進(jìn)行推理

自 8.0 版本開(kāi)始,TensorRT 可以支持稀疏卷積,矩陣乘法 (GEMM) 需要用 1x1 的卷積替代來(lái)進(jìn)行稀疏化推理。在 TensorRT 中啟用稀疏化推理非常簡(jiǎn)單。在導(dǎo)入 TensorRT 之前,模型的權(quán)重應(yīng)具有 2:4 的稀疏模式。如果使用 trtexec 構(gòu)建引擎,只需設(shè)置 -sparity=enable 標(biāo)志即可。如果您正在編寫代碼或腳本來(lái)構(gòu)建引擎,只需按如下所示設(shè)置構(gòu)建配置:

對(duì)于 C++

config->setFlag(BuilderFlag::kSPARSE_WEIGHTS)

對(duì)于 Python

config.set_flag(trt.BuilderFlag.SPARSE_WEIGHTS)

使用 NVIDIA cuSPARSELt 庫(kù)增強(qiáng) TensorRT

在某些用例中,TensorRT 可能因?yàn)檩斎氤叽绮煌鵁o(wú)法提供最佳性能。您可以使用 cuSPARSELt 進(jìn)一步加速這些用例。

解決方案是使用 cuSPARSELt 編寫 TensoRT 插件,我們可以為不同的輸入尺寸初始化多個(gè)描述符以及多個(gè) cuSPARSELt 稀疏矩陣乘法 plan,并根據(jù)輸入尺寸選擇合適的 plan。

假設(shè)您在實(shí)現(xiàn)SpmmPluginDynamic插件,該插件繼承自nvinfer1:: IPluginV2DynamicExt,您可以使用一個(gè)私有結(jié)構(gòu)來(lái)存儲(chǔ)這些 plan。

 struct cusparseLtContext {
    cusparseLtHandle_t handle;
    std::vector plans;
    std::vector matAs, matBs, matCs;
    std::vector matmuls;
    std::vector alg_sels;
}

TensorRT 插件應(yīng)實(shí)現(xiàn) configurePlugin方法,該方法會(huì)根據(jù)輸入和輸出類型及尺寸設(shè)置插件。您需要在這個(gè)函數(shù)當(dāng)中初始化 cuSPARSELt 的相關(guān)結(jié)構(gòu)。

cuSPARSELt 的輸入尺寸有一些限制,應(yīng)為 4、8 或 16 的倍數(shù),具體取決于數(shù)據(jù)類型。在本文中,我們將其設(shè)置為 16 的倍數(shù)。了解該限制條件的相關(guān)信息,請(qǐng)查看此文檔https://docs.nvidia.com/cuda/cusparselt/functions.html#cusparseltdensedescriptorinit)。

for (int i = 0; i < size_num; ++i) {
  m = 16 * (i + 1);
  int alignment = 16;
  CHECK_CUSPARSE(cusparseLtStructuredDescriptorInit(
      &handle, &matBs[i], n, k, k, alignment, type, CUSPARSE_ORDER_ROW,
      CUSPARSELT_SPARSITY_50_PERCENT))
  CHECK_CUSPARSE(cusparseLtDenseDescriptorInit(
      &handle, &matAs[i], m, k, k, alignment, type, CUSPARSE_ORDER_ROW))
  CHECK_CUSPARSE(cusparseLtDenseDescriptorInit(
      &handle, &matCs[i], m, n, n, alignment, type, CUSPARSE_ORDER_ROW))
  CHECK_CUSPARSE(cusparseLtMatmulDescriptorInit(
      &handle, &matmuls[i], CUSPARSE_OPERATION_NON_TRANSPOSE,
      CUSPARSE_OPERATION_TRANSPOSE, &matAs[i], &matBs[i], &matCs[i], &matCs[i], compute_type))
  CHECK_CUSPARSE(cusparseLtMatmulAlgSelectionInit(
      &handle, &alg_sels[i], &matmuls[i], CUSPARSELT_MATMUL_ALG_DEFAULT))
  int split_k = 1;
  CHECK_CUSPARSE(cusparseLtMatmulAlgSetAttribute(
      &handle, &alg_sels[i], CUSPARSELT_MATMUL_SPLIT_K, &split_k, sizeof(split_k)))
  int alg_id = 0;
  CHECK_CUSPARSE(cusparseLtMatmulAlgSetAttribute(
      &handle, &alg_sels[i], CUSPARSELT_MATMUL_ALG_CONFIG_ID, &alg_id, sizeof(alg_id)))
  size_t ws{0};
  CHECK_CUSPARSE(cusparseLtMatmulPlanInit(&handle, &plans[i], &matmuls[i], &alg_sels[i],
                                          ws))
  CHECK_CUSPARSE(
      cusparseLtMatmulGetWorkspace(&handle, &plans[i], &ws))
  workspace_size = std::max(workspace_size, ws);
}

在enqueue函數(shù)中,您可以檢索適當(dāng)?shù)?plan 來(lái)執(zhí)行矩陣乘法。

int m = inputDesc->dims.d[0];
int idx = (m + 15) / 16 - 1;
float alpha = 1.0f;
float beta = 0.0f;
auto input = static_cast<const float*>(inputs[0]);
auto output = static_cast<float*>(outputs[0]);
cusparseStatus_t status = cusparseLtMatmul(
    &handle, &plans[idx], &alpha, input,
weight_compressed,&beta,output,output,workSpace,&stream,1);

搜索引擎中的應(yīng)用

在本部分中,我們將展示在搜索引擎中應(yīng)用了稀疏化加速的四個(gè)應(yīng)用案例:

  • 第一是搜索中的相關(guān)性預(yù)測(cè),旨在評(píng)估輸入文本和數(shù)據(jù)庫(kù)中視頻之間的相關(guān)性。

  • 第二是查詢性能預(yù)測(cè),用于文檔召回交付策略。

  • 第三是用于召回最相關(guān)文本的召回任務(wù)。

  • 第四是文生圖任務(wù),該任務(wù)根據(jù)輸入的提示詞自動(dòng)生成相應(yīng)的圖片。

搜索相關(guān)性案例

我們使用 PNR (Positive Negative Rate,正負(fù)率) 或 ACC (accuracy,精度) 標(biāo)準(zhǔn)來(lái)評(píng)估稀疏化加速在這些應(yīng)用案例的效果。在相關(guān)性案例 1 中,我們運(yùn)行 Sparse-QAT 獲得了一個(gè)稀疏 int8 模型,該模型在兩個(gè)重要的 PNR 評(píng)估指標(biāo)均優(yōu)于在線 int8 模型。

214fa27a-254e-11ee-962d-dac502259ad0.png

在相關(guān)性案例 2 中,稀疏 int8 模型可以獲得與 float32 模型接近的 Acc 分?jǐn)?shù),相比稠密 int8 模型,其獲得了 1.4 倍的推理加速。

21813a4c-254e-11ee-962d-dac502259ad0.png ? ?

查詢性能預(yù)測(cè)案例

在這部分,我們展示了查詢性能預(yù)測(cè) (query performance prediction, QPP) 的四個(gè)用例,其效果使用 NDCG(normalized discounted cumulative gain, 標(biāo)準(zhǔn)化折扣累積增益)評(píng)估。如表 3 所示,這些稀疏 float16 模型甚至可以獲得比原始 float32 模型更高的 NDCG 分?jǐn)?shù),同時(shí)推理速度相比于 float32 模型提高了 4 倍。

219fb4ea-254e-11ee-962d-dac502259ad0.png

文檔查詢案例

表 4 顯示了搜索引擎中文檔查詢案例的結(jié)果,與稠密 int8 模型相比,使用我們推薦的 Sparse-QAT 訓(xùn)練流水線,稀疏 int8 模型可以實(shí)現(xiàn) 1.4 倍的推理加速,準(zhǔn)確度損失可忽略不計(jì)。

21d72ae2-254e-11ee-962d-dac502259ad0.png

文生圖案例

圖 6 展示了文生圖模型的結(jié)果,上面四張圖片是用稠密 float32 模型輸出,下面四張圖片是用稀疏 float16 模型輸出。

從結(jié)果中您會(huì)發(fā)現(xiàn),輸入相同的提示,稀疏模型可以輸出與稠密模型相當(dāng)?shù)慕Y(jié)果。而且引入模型稀疏化和額外的漸進(jìn)式稀疏調(diào)優(yōu)使得模型從數(shù)據(jù)中學(xué)習(xí)到了更多內(nèi)容,因此部分稀疏模型的輸出結(jié)果看起來(lái)更為合理。

圖 6. 搜索引擎中的文生圖案例

(在文生圖的案例中,稀疏模型可能會(huì)產(chǎn)生比密集模型更合理的結(jié)果。)

總結(jié)

NVIDIA Ampere 架構(gòu)中的結(jié)構(gòu)化稀疏功能可以加速許多深度學(xué)習(xí)工作負(fù)載,并且易于結(jié)合 TensorRT 和 cuSPARSELt 稀疏加速庫(kù)一起使用。

如需了解更多信息,請(qǐng)觀看 GTC 演講:NVIDIA Amperehttps://www.nvidia.com/en-us/on-demand/session/gtcspring23-s51299/) 架構(gòu)的結(jié)構(gòu)化稀疏功能及其在騰訊微信搜索中的應(yīng)用(https://www.nvidia.com/en-us/on-demand/session/gtcspring23-s51299/)。

下載最新的 TensorRT 和 cuSPARSELt:

TensorRT 下載:

https://developer.nvidia.cn/zh-cn/tensorrt

cuSPARSELt 下載:https://developer.nvidia.com/cusparselt-downloads)。

點(diǎn)擊“閱讀原文”,或掃描下方海報(bào)二維碼,在 8 月 8日聆聽(tīng)NVIDIA 創(chuàng)始人兼 CEO 黃仁勛在 SIGGRAPH 現(xiàn)場(chǎng)發(fā)表的 NVIDIA 主題演講,了解 NVIDIA 的新技術(shù),包括屢獲殊榮的研究,OpenUSD 開(kāi)發(fā),以及最新的 AI 內(nèi)容創(chuàng)作解決方案。


原文標(biāo)題:NVIDIA Ampere 架構(gòu)的結(jié)構(gòu)化稀疏功能及其在搜索引擎中的應(yīng)用

文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    23

    文章

    4013

    瀏覽量

    96731

原文標(biāo)題:NVIDIA Ampere 架構(gòu)的結(jié)構(gòu)化稀疏功能及其在搜索引擎中的應(yīng)用

文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    結(jié)構(gòu)化數(shù)據(jù)臺(tái):企業(yè)AI應(yīng)用安全落地的核心引擎

    在數(shù)字轉(zhuǎn)型浪潮,非結(jié)構(gòu)化數(shù)據(jù)(如文檔、圖片、音視頻等)已成為企業(yè)核心資產(chǎn),其價(jià)值挖掘能力直接影響AI應(yīng)用的效能與安全性。然而,數(shù)據(jù)分散、多模態(tài)處理復(fù)雜、安全合規(guī)風(fēng)險(xiǎn)高等問(wèn)題,嚴(yán)重制約了企業(yè)AI
    的頭像 發(fā)表于 02-27 17:06 ?723次閱讀

    國(guó)產(chǎn)之光!達(dá)瑞和獲DEEPSEEK認(rèn)證:國(guó)產(chǎn)光譜相機(jī)領(lǐng)導(dǎo)品牌

    能夠快速抓取和索引海量數(shù)據(jù),還能通過(guò)深度學(xué)習(xí)技術(shù)理解用戶的搜索意圖,提供個(gè)性搜索結(jié)果。 達(dá)瑞和也很榮幸被deepseek收錄,
    的頭像 發(fā)表于 02-17 11:01 ?613次閱讀

    微軟面臨法國(guó)反壟斷機(jī)構(gòu)調(diào)查

    據(jù)媒體報(bào)道,微軟目前正在接受法國(guó)反壟斷機(jī)構(gòu)的深入調(diào)查。此次調(diào)查的核心關(guān)注點(diǎn)在于,微軟是否搜索引擎聯(lián)盟市場(chǎng)濫用其市場(chǎng)支配地位。 知情人士透露,法國(guó)監(jiān)管機(jī)構(gòu)正在仔細(xì)評(píng)估微軟的行為,特別是其是否向那些
    的頭像 發(fā)表于 02-11 10:57 ?772次閱讀

    OpenAI免費(fèi)開(kāi)放ChatGPT搜索功能

    近日,OpenAI宣布了一項(xiàng)重大決策:向所有用戶免費(fèi)開(kāi)放ChatGPT搜索功能。這一舉措無(wú)疑將為用戶帶來(lái)更加高效、智能的搜索體驗(yàn)。 與谷歌等傳統(tǒng)搜索引擎的收錄模式相比,ChatGPT
    的頭像 發(fā)表于 02-06 14:35 ?687次閱讀

    LZO Data Compression,高性能LZO無(wú)損數(shù)據(jù)壓縮加速器介紹,F(xiàn)PGA&amp;ASIC

    無(wú)損數(shù)據(jù)壓縮2.可配置的數(shù)據(jù)塊分段和搜索窗口大小[8KB,16KB,32KB]3.可配置的并行處理等級(jí)[搜索引擎的數(shù)量,1~32]4.可配置的字典深度[8K,16KB],字典RAM類型[BRAM
    發(fā)表于 01-24 23:53

    javascript:void(0) 是否影響SEO優(yōu)化

    可能不會(huì)被搜索引擎正確地索引或理解。 內(nèi)容權(quán)重和鏈接傳遞 SEO,內(nèi)部鏈接(即網(wǎng)站內(nèi)的鏈接)對(duì)于內(nèi)容權(quán)重和頁(yè)面重要
    的頭像 發(fā)表于 12-31 16:08 ?861次閱讀

    HTTP 協(xié)議對(duì)于SEO優(yōu)化的影響

    搜索引擎優(yōu)化(SEO)是提高網(wǎng)站在搜索引擎的可見(jiàn)性和排名的過(guò)程。HTTP協(xié)議作為互聯(lián)網(wǎng)通信的基礎(chǔ),對(duì)SEO有著深遠(yuǎn)的影響。 1. HTTP狀態(tài)碼 HTTP狀態(tài)碼是服務(wù)器響應(yīng)客戶端請(qǐng)求的結(jié)果。這些
    的頭像 發(fā)表于 12-30 09:29 ?834次閱讀

    蘋果為谷歌支付數(shù)十億美元辯護(hù),參與搜索案反壟斷審判

    億美元。 周一于華盛頓提交的法庭文件,蘋果的律師明確表示,公司不能依賴谷歌來(lái)維護(hù)這一協(xié)議。他們強(qiáng)調(diào),無(wú)論谷歌是否繼續(xù)支付這筆費(fèi)用,蘋果都沒(méi)有打算建立自己的搜索引擎來(lái)與谷歌競(jìng)爭(zhēng)。這一立場(chǎng)表明,蘋果認(rèn)為其與谷歌之間的合
    的頭像 發(fā)表于 12-26 10:41 ?626次閱讀

    BMS的功能、架構(gòu)及其電動(dòng)汽車的應(yīng)用

    隨著新能源汽車的普及,電池管理系統(tǒng)(BMS)作為動(dòng)力電池的核心部件,其重要性日益凸顯。本文將詳細(xì)介紹BMS的功能、架構(gòu)及其電動(dòng)汽車的應(yīng)用
    的頭像 發(fā)表于 11-24 10:18 ?5306次閱讀
    BMS的<b class='flag-5'>功能</b>、<b class='flag-5'>架構(gòu)</b><b class='flag-5'>及其</b><b class='flag-5'>在</b>電動(dòng)汽車<b class='flag-5'>中</b>的應(yīng)用

    SSR的優(yōu)勢(shì)和劣勢(shì)分析

    的SEO效果,有助于提高搜索引擎排名。搜索引擎爬蟲(chóng)可以直接抓取到渲染好的頁(yè)面內(nèi)容,相比客戶端渲染(CSR)更利于搜索引擎索引和排名。 首屏加載性能更優(yōu) : 用戶
    的頭像 發(fā)表于 11-18 11:27 ?2173次閱讀

    阿里國(guó)際推出全球首個(gè)B2B AI搜索引擎Accio

    近日,歐洲科技峰會(huì)Web Summit上,阿里國(guó)際正式推出了全球首個(gè)B2B領(lǐng)域的AI搜索引擎——Accio。這一創(chuàng)新產(chǎn)品面向全球商家開(kāi)放,標(biāo)志著阿里國(guó)際正式入局當(dāng)前備受矚目的AI Search賽道。
    的頭像 發(fā)表于 11-15 16:53 ?1540次閱讀

    阿里國(guó)際推出B2B領(lǐng)域AI搜索引擎Accio

    近日,阿里國(guó)際宣布正式進(jìn)軍AI搜索領(lǐng)域,并面向全球商家推出了首個(gè)B2B領(lǐng)域的AI搜索引擎——Accio。這一創(chuàng)新產(chǎn)品的推出,標(biāo)志著阿里國(guó)際電子商務(wù)和人工智能技術(shù)結(jié)合方面邁出了重要一步。 Accio
    的頭像 發(fā)表于 11-14 11:47 ?1234次閱讀

    租用多ip云服務(wù)器可以帶來(lái)哪些好處?應(yīng)用場(chǎng)景有哪些?

    。 2、避免共享ip風(fēng)險(xiǎn): 共享ip環(huán)境,如果同一IP下的其他網(wǎng)站受到攻擊或被搜索引擎懲罰,可能會(huì)影響你的網(wǎng)站。使用獨(dú)立的ip地址可以降低這種風(fēng)險(xiǎn)。 3、提高安全性: 獨(dú)立的ip地址可以減少遭受DDoS攻擊和其他網(wǎng)絡(luò)攻擊的風(fēng)
    的頭像 發(fā)表于 11-04 11:33 ?654次閱讀

    OpenAI推出ChatGPT搜索功能

    查找網(wǎng)絡(luò)信息時(shí),往往需要通過(guò)傳統(tǒng)的搜索引擎進(jìn)行檢索,然后從中篩選出有價(jià)值的內(nèi)容。而現(xiàn)在,有了ChatGPT搜索,用戶可以更加便捷地獲取所需信息。 OpenAI表示,ChatGPT搜索不僅能夠幫助用戶像在網(wǎng)絡(luò)上一樣
    的頭像 發(fā)表于 11-04 10:34 ?815次閱讀

    Meta開(kāi)發(fā)新搜索引擎,減少對(duì)谷歌和必應(yīng)的依賴

    近日,Meta正在積極進(jìn)軍人工智能領(lǐng)域,并試圖跟上OpenAI的發(fā)展步伐。為實(shí)現(xiàn)這一目標(biāo),Meta正在開(kāi)發(fā)一款全新的搜索引擎,該搜索引擎具備網(wǎng)絡(luò)爬蟲(chóng)功能,能夠?yàn)橛脩籼峁┯嘘P(guān)時(shí)事的對(duì)話答案,而這些答案
    的頭像 發(fā)表于 10-29 11:49 ?952次閱讀