3d动漫高清自慰喷水的网站,美国裸体137

到目前為止，我們的序列學(xué)習(xí)任務(wù)的工作示例是語(yǔ)言建模，我們的目標(biāo)是在給定序列中所有先前標(biāo)記的情況下預(yù)測(cè)下一個(gè)標(biāo)記。在這種情況下，我們只希望以左向上下文為條件，因此標(biāo)準(zhǔn) RNN 的單向鏈接似乎是合適的。然而，還有許多其他序列學(xué)習(xí)任務(wù)上下文，在這些上下文中，在向左和向右上下文的每個(gè)時(shí)間步調(diào)整預(yù)測(cè)是非常好的。例如，考慮詞性檢測(cè)。在評(píng)估與給定詞相關(guān)的詞性時(shí)，為什么我們不應(yīng)該考慮兩個(gè)方向的上下文？

另一項(xiàng)常見(jiàn)任務(wù)（通常在針對(duì)感興趣的實(shí)際任務(wù)微調(diào)模型之前用作預(yù)訓(xùn)練練習(xí)）是屏蔽文本文檔中的隨機(jī)標(biāo)記，然后訓(xùn)練序列模型以預(yù)測(cè)缺失標(biāo)記的值。請(qǐng)注意，根據(jù)空白后面的內(nèi)容，缺失標(biāo)記的可能值會(huì)發(fā)生顯著變化：

我是___。

我___餓了。

我___餓了，我能吃半頭豬。

在第一句話中，“快樂(lè)”似乎是一個(gè)可能的候選者。“不”和“非?！边@兩個(gè)詞在第二句中似乎說(shuō)得通，但“不”與第三句似乎格格不入。

幸運(yùn)的是，一種簡(jiǎn)單的技術(shù)可以將任何單向 RNN 轉(zhuǎn)換為雙向 RNN （Schuster 和 Paliwal，1997）。我們簡(jiǎn)單地實(shí)現(xiàn)兩個(gè)單向 RNN 層，它們以相反的方向鏈接在一起并作用于相同的輸入（圖 10.4.1）。對(duì)于第一個(gè) RNN 層，第一個(gè)輸入是x1最后的輸入是 xT，但是對(duì)于第二個(gè) RNN 層，第一個(gè)輸入是 xT最后的輸入是x1. 為了產(chǎn)生這個(gè)雙向 RNN 層的輸出，我們只需將兩個(gè)底層單向 RNN 層的相應(yīng)輸出連接在一起。

圖 10.4.1雙向 RNN 的架構(gòu)。

正式地為任何時(shí)間步長(zhǎng)t，我們考慮一個(gè)小批量輸入 Xt∈Rn×d（示例數(shù)量： n，每個(gè)示例中的輸入數(shù)量：d) 并令隱藏層激活函數(shù)為?. 在雙向架構(gòu)中，這個(gè)時(shí)間步長(zhǎng)的前向和后向隱藏狀態(tài)是H→t∈Rn×h 和H←t∈Rn×h，分別在哪里h是隱藏單元的數(shù)量。前向和后向隱藏狀態(tài)更新如下：

(10.4.1)H→t=?(XtWxh(f)+H→t?1Whh(f)+bh(f)),H←t=?(XtWxh(b)+H←t+1Whh(b)+bh(b)),

權(quán)重在哪里 Wxh(f)∈Rd×h,Whh(f)∈Rh×h,Wxh(b)∈Rd×h,andWhh(b)∈Rh×h, 和偏見(jiàn)bh(f)∈R1×h和 bh(b)∈R1×h都是模型參數(shù)。

接下來(lái)，我們連接前向和后向隱藏狀態(tài) H→t和 H←t獲得隱藏狀態(tài) Ht∈Rn×2h送入輸出層。在具有多個(gè)隱藏層的深度雙向 RNN 中，此類信息作為輸入傳遞到下一個(gè)雙向?qū)?。最后，輸出層?jì)算輸出 Ot∈Rn×q（輸出數(shù)量： q):

(10.4.2)Ot=HtWhq+bq.

這里，權(quán)重矩陣 Whq∈R2h×q和偏見(jiàn) bq∈R1×q是輸出層的模型參數(shù)。雖然從技術(shù)上講，兩個(gè)方向可以有不同數(shù)量的隱藏單元，但在實(shí)踐中很少做出這種設(shè)計(jì)選擇。我們現(xiàn)在演示雙向 RNN 的簡(jiǎn)單實(shí)現(xiàn)。

import torch
from torch import nn
from d2l import torch as d2l

from mxnet import np, npx
from mxnet.gluon import rnn
from d2l import mxnet as d2l

npx.set_np()

from jax import numpy as jnp
from d2l import jax as d2l

No GPU/TPU found, falling back to CPU. (Set TF_CPP_MIN_LOG_LEVEL=0 and rerun for more info.)

import tensorflow as tf
from d2l import tensorflow as d2l

10.4.1。從零開(kāi)始實(shí)施

要從頭開(kāi)始實(shí)現(xiàn)雙向 RNN，我們可以包含兩個(gè)RNNScratch具有獨(dú)立可學(xué)習(xí)參數(shù)的單向?qū)嵗?/p>

class BiRNNScratch(d2l.Module):
  def __init__(self, num_inputs, num_hiddens, sigma=0.01):
    super().__init__()
    self.save_hyperparameters()
    self.f_rnn = d2l.RNNScratch(num_inputs, num_hiddens, sigma)
    self.b_rnn = d2l.RNNScratch(num_inputs, num_hiddens, sigma)
    self.num_hiddens *= 2 # The output dimension will be doubled

class BiRNNScratch(d2l.Module):
  def __init__(self, num_inputs, num_hiddens, sigma=0.01):
    super().__init__()
    self.save_hyperparameters()
    self.f_rnn = d2l.RNNScratch(num_inputs, num_hiddens, sigma)
    self.b_rnn = d2l.RNNScratch(num_inputs, num_hiddens, sigma)
    self.num_hiddens *= 2 # The output dimension will be doubled

class BiRNNScratch(d2l.Module):
  num_inputs: int
  num_hiddens: int
  sigma: float = 0.01

  def setup(self):
    self.f_rnn = d2l.RNNScratch(num_inputs, num_hiddens, sigma)
    self.b_rnn = d2l.RNNScratch(num_inputs, num_hiddens, sigma)
    self.num_hiddens *= 2 # The output dimension will be doubled

class BiRNNScratch(d2l.Module):
  def __init__(self, num_inputs, num_hiddens, sigma=0.01):
    super().__init__()
    self.save_hyperparameters()
    self.f_rnn = d2l.RNNScratch(num_inputs, num_hiddens, sigma)
    self.b_rnn = d2l.RNNScratch(num_inputs, num_hiddens, sigma)
    self.num_hiddens *= 2 # The output dimension will be doubled

前向和后向 RNN 的狀態(tài)分別更新，而這兩個(gè) RNN 的輸出被連接起來(lái)。

@d2l.add_to_class(BiRNNScratch)
def forward(self, inputs, Hs=None):
  f_H, b_H = Hs if Hs is not None else (None, None)
  f_outputs, f_H = self.f_rnn(inputs, f_H)
  b_outputs, b_H = self.b_rnn(reversed(inputs), b_H)
  outputs = [torch.cat((f, b), -1) for f, b in zip(
    f_outputs, reversed(b_outputs))]
  return outputs, (f_H, b_H)

@d2l.add_to_class(BiRNNScratch)
def forward(self, inputs, Hs=None):
  f_H, b_H = Hs if Hs is not None else (None, None)
  f_outputs, f_H = self.f_rnn(inputs, f_H)
  b_outputs, b_H = self.b_rnn(reversed(inputs), b_H)
  outputs = [np.concatenate((f, b), -1) for f, b in zip(
    f_outputs, reversed(b_outputs))]
  return outputs, (f_H, b_H)

@d2l.add_to_class(BiRNNScratch)
def forward(self, inputs, Hs=None):
  f_H, b_H = Hs if Hs is not None else (None, None)
  f_outputs, f_H = self.f_rnn(inputs, f_H)
  b_outputs, b_H = self.b_rnn(reversed(inputs), b_H)
  outputs = [jnp.concatenate((f, b), -1) for f, b in zip(
    f_outputs, reversed(b_outputs))]
  return outputs, (f_H, b_H)

@d2l.add_to_class(BiRNNScratch)
def forward(self, inputs, Hs=None):
  f_H, b_H = Hs if Hs is not None else (None, None)
  f_outputs, f_H = self.f_rnn(inputs, f_H)
  b_outputs, b_H = self.b_rnn(reversed(inputs), b_H)
  outputs = [tf.concat((f, b), -1) for f, b in zip(
    f_outputs, reversed(b_outputs))]
  return outputs, (f_H, b_H)

10.4.2。簡(jiǎn)潔的實(shí)現(xiàn)

使用高級(jí) API，我們可以更簡(jiǎn)潔地實(shí)現(xiàn)雙向 RNN。這里我們以一個(gè) GRU 模型為例。

class BiGRU(d2l.RNN):
  def __init__(self, num_inputs, num_hiddens):
    d2l.Module.__init__(self)
    self.save_hyperparameters()
    self.rnn = nn.GRU(num_inputs, num_hiddens, bidirectional=True)
    self.num_hiddens *= 2

Using the high-level APIs, we can implement bidirectional RNNs more concisely. Here we take a GRU model as an example.

class BiGRU(d2l.RNN):
  def __init__(self, num_inputs, num_hiddens):
    d2l.Module.__init__(self)
    self.save_hyperparameters()
    self.rnn = rnn.GRU(num_hiddens, bidirectional=True)
    self.num_hiddens *= 2

Flax API does not offer RNN layers and hence there is no notion of any bidirectional argument. One needs to manually reverse the inputs as shown in the scratch implementation, if a bidirectional layer is needed.

Using the high-level APIs, we can implement bidirectional RNNs more concisely. Here we take a GRU model as an example.

10.4.3。概括

在雙向 RNN 中，每個(gè)時(shí)間步的隱藏狀態(tài)同時(shí)由當(dāng)前時(shí)間步之前和之后的數(shù)據(jù)確定。雙向 RNN 主要用于序列編碼和給定雙向上下文的觀察估計(jì)。由于長(zhǎng)梯度鏈，雙向 RNN 的訓(xùn)練成本非常高。

10.4.4。練習(xí)

如果不同方向使用不同數(shù)量的隱藏單元，形狀將如何Ht改變？

設(shè)計(jì)具有多個(gè)隱藏層的雙向 RNN。

多義現(xiàn)象在自然語(yǔ)言中很常見(jiàn)。例如，“銀行”一詞在“我去銀行存款”和“我去銀行坐下”的語(yǔ)境中有不同的含義。我們?nèi)绾卧O(shè)計(jì)一個(gè)神經(jīng)網(wǎng)絡(luò)模型，以便在給定上下文序列和一個(gè)詞的情況下，返回該詞在上下文中的向量表示？哪種類型的神經(jīng)架構(gòu)更適合處理多義詞？

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4819

瀏覽量
106096
pytorch

pytorch

+關(guān)注

關(guān)注
2

文章
812

瀏覽量
14434

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

PyTorch教程-10.4. 雙向遞歸神經(jīng)網(wǎng)絡(luò)

評(píng)論