chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

BERT的自注意力模式

汽車玩家 ? 來(lái)源:AI公園 ? 作者:Anna Rogers ? 2020-04-19 11:37 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

導(dǎo)讀

在finetune BERT的時(shí)候發(fā)生了什么?

2019年可以被稱為NLP的Transformer之年:這種架構(gòu)主導(dǎo)了排行榜并激發(fā)了許多分析研究。毫無(wú)疑問(wèn),最受歡迎的Transformer是BERT(Devlin, Chang, Lee, & Toutanova, 2019)。除了其眾多的應(yīng)用,許多研究探索了各種語(yǔ)言知識(shí)的模型,通常得出這樣的結(jié)論,這種語(yǔ)言知識(shí)確實(shí)存在,至少在某種程度上(Goldberg, 2019; Hewitt & Manning, 2019; Ettinger, 2019)。

這項(xiàng)工作的重點(diǎn)是補(bǔ)充的問(wèn)題:在finetune BERT的時(shí)候發(fā)生了什么?特別是,有多少可從語(yǔ)言學(xué)角度解釋的自注意力模式被認(rèn)為是它的優(yōu)勢(shì),可以實(shí)際用來(lái)解決下游的任務(wù)?

為了回答這個(gè)問(wèn)題,我們用BERT finetune了以下GLUE (Wang et al., 2018)的任務(wù)和數(shù)據(jù)集:

語(yǔ)義檢測(cè) (MRPC and QQP);

文本相似度 (STS-B);

情感分析 (SST-2);

文本蘊(yùn)含 (RTE);

自然語(yǔ)言推理 (QNLI, MNLI).

BERT的簡(jiǎn)單介紹

BERT代表Transformer的雙向編碼器表示。該模型基本上是一個(gè)多層雙向Transformer編碼器 (Devlin, Chang, Lee, & Toutanova, 2019),有多個(gè)關(guān)于它的工作原理的優(yōu)秀指南,包括圖解的Transformer.。我們關(guān)注的是Transformer架構(gòu)的一個(gè)特定組件,即self-attention。簡(jiǎn)而言之,它是一種衡量輸入和輸出序列組件的方法,以便對(duì)它們之間的關(guān)系(甚至遠(yuǎn)程依賴關(guān)系)進(jìn)行建模。

作為一個(gè)簡(jiǎn)單的例子,讓我們假設(shè)我們需要?jiǎng)?chuàng)建一個(gè)句子“Tom is a black cat”的表示。BERT在對(duì)“cat”進(jìn)行編碼時(shí),可能會(huì)選擇更多地關(guān)注“Tom”,而較少關(guān)注“is”、“a”、“black”。這可以表示為權(quán)重向量(對(duì)于句子中的每個(gè)單詞)。當(dāng)模型對(duì)序列中的每個(gè)單詞進(jìn)行編碼時(shí),就會(huì)計(jì)算出這些向量,從而得到一個(gè)方陣,我們稱之為“自注意力圖”。

現(xiàn)在,我們還不清楚“Tom”和“cat”之間的關(guān)系是否總是最好的。要回答關(guān)于貓的顏色的問(wèn)題,模特最好關(guān)注“black”而不是“Tom”。幸運(yùn)的是,它不必選擇。BERT(和其他Transformer)很強(qiáng)大很大程度上歸功于這樣一個(gè)事實(shí):在多層中有多個(gè)頭,它們都學(xué)會(huì)了構(gòu)建獨(dú)立的自注意力圖。理論上,這可以賦予模型“在不同位置關(guān)注來(lái)自不同表示子空間的信息”的能力(Vaswani et al., 2017)。換句話說(shuō),模型將能夠在當(dāng)前任務(wù)的幾個(gè)備選表示之間進(jìn)行選擇。

自注意力權(quán)重的計(jì)算大部分發(fā)生在BERT的預(yù)訓(xùn)練中:該模型(預(yù))針對(duì)兩項(xiàng)任務(wù)(Masked語(yǔ)言模型和下一個(gè)句子預(yù)測(cè))進(jìn)行訓(xùn)練,然后針對(duì)個(gè)別下游任務(wù)(如情緒分析)進(jìn)行finetune。這種分離的基本思想訓(xùn)練過(guò)程分為semi-supervised訓(xùn)練和finetune階段,其中finetune階段是監(jiān)督學(xué)習(xí):遷移任務(wù)的數(shù)據(jù)集通常太小,一般不夠了解整個(gè)語(yǔ)言,但大型文本語(yǔ)料庫(kù)可以通過(guò)語(yǔ)言建模用于此目的(和其他類似的)。因此,我們可以獲得獨(dú)立于任務(wù)的句子和文本的信息表示,然后這些句子和文本可以“適應(yīng)”后續(xù)任務(wù)。

讓我們?cè)谶@里指出,“適應(yīng)”應(yīng)該工作的確切方式在BERT論文或GPT技術(shù)報(bào)告(其中強(qiáng)調(diào)了預(yù)訓(xùn)練/finetune方法)中都沒(méi)有詳細(xì)描述。然而,如果注意力本身是為了提供一種對(duì)部分的輸入序列“鏈接”,增加信息量,多頭,多層架構(gòu)需要提供多個(gè)可選擇的自注意力圖,可能finetune過(guò)程會(huì)教模型依靠對(duì)手頭的任務(wù)更有用的自注意力圖。例如,在情感分析任務(wù)中,名詞和形容詞之間的關(guān)系比名詞和介詞之間的關(guān)系更重要,因此,finetune會(huì)理想地教會(huì)模型更多地依賴更有用的自注意力圖。

學(xué)到的自注意力模式是什么類型的,每種類型有多少?

那么BERT的自注意力模式是什么呢?我們找到了五個(gè),如下圖所示:

BERT的自注意力模式

圖1,BERT自注意力模式的類型。每個(gè)圖像上的兩個(gè)軸表示輸入樣本的BERT標(biāo)記,顏色表示絕對(duì)注意力權(quán)重(深色表示更大的權(quán)重)。

垂直模式表示對(duì)單個(gè)標(biāo)記的關(guān)注,它通常是[SEP]標(biāo)記(表示句子結(jié)束的特殊標(biāo)記)或[CLS]標(biāo)記(作為提供給分類器的完整序列表示使用的特殊BERT標(biāo)記)。

對(duì)角線模式表示注意前面/后面的單詞;

塊模式表示對(duì)序列中所有標(biāo)記的關(guān)注或多或少是一致的;

從理論上講,異構(gòu)模式是唯一能夠?qū)?yīng)輸入序列各部分之間的任何有意義的關(guān)系的模式(盡管不一定如此)。

以下是BERT在七項(xiàng)GLUE任務(wù)中五種注意力的比例(每一列代表所有層中所有頭部的100%):

BERT的自注意力模式

圖2所示。在選定的GLUE任務(wù)上,BERT的自注意映射類型的比例進(jìn)行了微調(diào)。

雖然具體的比例因任務(wù)而異,但在大多數(shù)情況下,可能有意義的模式占BERT所有自注意力權(quán)重的不到一半。至少有三分之一的BERT head只關(guān)注[SEP]和[CLS] —— 這種策略不能為下一層的表示提供很多有意義的信息。它還表明,該模型嚴(yán)重參數(shù)化過(guò)度,這解釋了最近蒸餾方法的成功嘗試 (Sanh, Debut, Chaumond, & Wolf, 2019; Jiao et al., 2019)。

值得注意的是,我們使用的是BERT-base,即較小的模型,在16層中有12個(gè)頭。如果它已經(jīng)被過(guò)度參數(shù)化了,這就意味著B(niǎo)ERT-large和所有后來(lái)的模型,都是過(guò)度參數(shù)化的,其中一些是30倍大(Wu et al., 2016)。

這樣對(duì)[SEP]和[CLS]的依賴也可能表明,要么BERT以某種方式“吸收”了前面層獲得的信息表示,后續(xù)的self-attention圖并不需要太多,要么BERT某種程度上整體不依賴于self-attention。

fine-tuning的時(shí)候發(fā)生了什么?

我們的下一個(gè)問(wèn)題是BERT的微調(diào)過(guò)程中發(fā)生了什么變化。下面的熱圖顯示了在finetune之前和之后,每個(gè)頭和每一層扁平的自注意映射矩陣之間的余弦相似性。較深的顏色表示在表現(xiàn)上有更多的差異。對(duì)于所有的GLUE任務(wù),進(jìn)行了3個(gè)epochs的finetune。

BERT的自注意力模式

圖3所示,在經(jīng)過(guò)訓(xùn)練和調(diào)整的BERT中,平展的自注意圖之間存在余弦相似性。顏色越深表示差異越大。

我們發(fā)現(xiàn),大多數(shù)注意力的權(quán)重并沒(méi)有發(fā)生太大的變化,對(duì)于大多數(shù)任務(wù)來(lái)說(shuō),最后兩層變化最大。這些變化似乎不支持任何特定類型的有意義的注意力模式。相反,我們發(fā)現(xiàn)這個(gè)模型基本上更依賴于垂直注意力模式。在SST的例子中,在最后一層中較厚的垂直注意模式是由于對(duì)最終[SEP]和它之前的標(biāo)點(diǎn)符號(hào)的聯(lián)合注意,我們觀察到這是垂直注意模式的另一個(gè)常見(jiàn)目標(biāo)。

BERT的自注意力模式

圖4,自注意力圖的一個(gè)單獨(dú)的例子,在SST上對(duì)BERT進(jìn)行finetune。

這有兩個(gè)可能的解釋:

垂直模式在某種程度上是足夠的,也就是說(shuō),標(biāo)記表示在某種程度上吸收了前一層的有意義的注意力模式。我們確實(shí)發(fā)現(xiàn)最早的層更關(guān)注[CLS],然后[SEP]開(kāi)始主導(dǎo)大多數(shù)任務(wù)(見(jiàn)圖6)

手頭的任務(wù)實(shí)際上并不需要細(xì)粒度的、有意義的注意力模式,而這種模式本應(yīng)是Transformers的主要特征。

finetune會(huì)造成多大的區(qū)別?

考慮到在預(yù)訓(xùn)練和調(diào)優(yōu)中使用的數(shù)據(jù)集的巨大差異,以及非常不同的訓(xùn)練目標(biāo),研究調(diào)優(yōu)實(shí)際上產(chǎn)生了多大的差異是很有趣的。據(jù)我們所知,這個(gè)問(wèn)題以前沒(méi)有人提出過(guò)。

我們對(duì)每個(gè)選擇的GLUE數(shù)據(jù)集進(jìn)行了三個(gè)實(shí)驗(yàn):

預(yù)訓(xùn)練模型的權(quán)重凍結(jié),并使用特定任務(wù)的分類器,看看BERT的表現(xiàn)

從正態(tài)分布中隨機(jī)初始化模型,并對(duì)任務(wù)數(shù)據(jù)集進(jìn)行3個(gè)epochs的finetune,然后看看BERT的表現(xiàn)

使用官方的預(yù)訓(xùn)練BERT-base模型,在任務(wù)數(shù)據(jù)集上finetune3個(gè)epochs,然后看看BERT的表現(xiàn)

實(shí)驗(yàn)結(jié)果如下:

BERT的自注意力模式

雖然很明顯,預(yù)訓(xùn)練+finetune設(shè)置可以產(chǎn)生最高的結(jié)果,但隨機(jī)+finetune的BERT在所有任務(wù)上都表現(xiàn)得令人不安,除了文本相似性。事實(shí)上,對(duì)于情緒分析來(lái)說(shuō),隨機(jī)初始化和finetune BERT可以得到80%的準(zhǔn)確率,而且不需要任何預(yù)訓(xùn)練??紤]到大型預(yù)訓(xùn)練變壓Transformer的規(guī)模,這就提出了一個(gè)嚴(yán)重的問(wèn)題:昂貴的預(yù)訓(xùn)練是否能帶來(lái)足夠的經(jīng)濟(jì)效益。它還提出了關(guān)于NLP數(shù)據(jù)集的嚴(yán)重問(wèn)題,這些數(shù)據(jù)集顯然可以在沒(méi)有太多任務(wù)無(wú)關(guān)的語(yǔ)言知識(shí)的情況下解決,而這些任務(wù)無(wú)關(guān)的語(yǔ)言知識(shí)是預(yù)xunl+finetune設(shè)置應(yīng)該提供的。

18.01.2020更新:感謝Sam Bowman指出,隨機(jī)BERT結(jié)果總體上可與預(yù)訓(xùn)練Transformer的GLUE基線相當(dāng),并且可以很好地解釋為這些任務(wù)在沒(méi)有深入語(yǔ)言知識(shí)的情況下可以解決的程度。NLP社區(qū)在更困難的數(shù)據(jù)集上需要更多的工作,實(shí)際上需要這樣的知識(shí),在過(guò)渡期間,我們至少應(yīng)該切換到SuperGLUE。請(qǐng)注意,對(duì)于這些任務(wù),GLUE基線和大多數(shù)發(fā)布的結(jié)果都使用單詞嵌入或基于計(jì)數(shù)的單詞向量作為輸入,而我們的隨機(jī)BERT是完全隨機(jī)的。因此,直接比較并不完全公平。然而,特別是對(duì)于SST,這種比較可以與原始的遞歸神經(jīng)張量網(wǎng)絡(luò)進(jìn)行比較(Socher et al., 2013)。這個(gè)2013年的模型相比之下很小,而且也采用隨機(jī)向量作為輸入表示,但是它在二進(jìn)制分類上比我們的隨機(jī)+finetuneBERT多7點(diǎn)。

有沒(méi)有可以在語(yǔ)言學(xué)上解釋的自注意力頭?

在這一點(diǎn)上,有幾項(xiàng)研究試圖找出自注意力的頭編碼特定類型的信息,但大多數(shù)集中在語(yǔ)法上。我們做了一個(gè)實(shí)驗(yàn),關(guān)注框架語(yǔ)義元素:我們從FrameNet 1.7抽取了473個(gè)句子,最多12個(gè)標(biāo)記的長(zhǎng)度,并且核心框架元素距離目標(biāo)詞至少2個(gè)標(biāo)記。在下面的例子中,是體驗(yàn)者和分詞之間的關(guān)系喚起了emotion_directframe。可以說(shuō),這種關(guān)系對(duì)于理解一個(gè)給定的句子所描述的情況是至關(guān)重要的,任何聲稱能夠提供語(yǔ)言信息的自注意力圖的機(jī)制都應(yīng)該反映出這些關(guān)系(可能包括許多其他關(guān)系)。

我們通過(guò)預(yù)訓(xùn)練的BERT得到這些句子的表示法,計(jì)算與標(biāo)注的框架語(yǔ)義關(guān)系對(duì)應(yīng)的標(biāo)記對(duì)之間的最大權(quán)值。圖5表示FrameNet數(shù)據(jù)集中所有示例的這些分?jǐn)?shù)的平均值。我們發(fā)現(xiàn)兩個(gè)頭(第1層的頭2,第7層的頭6)比其他頭更關(guān)注這些框架語(yǔ)義關(guān)系。

BERT的自注意力模式

但是,在推理的時(shí)候,到底是什么信息在起作用呢?

我們認(rèn)為,通過(guò)對(duì)訓(xùn)練前的BERT權(quán)值進(jìn)行探查,得出某些信息實(shí)際上是編碼的結(jié)論,未免過(guò)于草率??紤]到模型的大小,可能會(huì)發(fā)現(xiàn)任何其他關(guān)系的編碼的類似證明(事實(shí)上,Jawahar等人發(fā)現(xiàn)在那個(gè)方向上的不同分解方案之間沒(méi)有顯著的差異)。真正的問(wèn)題是,模型在推理時(shí)是否真的依賴于這些信息。

為了確定我們認(rèn)為對(duì)幀語(yǔ)義關(guān)系編碼有用的兩個(gè)頭是否真的被finetune過(guò)的BERT使用,我們進(jìn)行了一項(xiàng)消融研究,一次禁用一個(gè)頭(即用統(tǒng)一注意力替換習(xí)得的注意力權(quán)重)。圖6顯示了在我們的示例中所有GLUE任務(wù)的熱圖,每個(gè)單元格顯示的是總體性能,當(dāng)給定的頭被關(guān)閉。很明顯,雖然整體模式不同任務(wù)之間,我們最好隨機(jī)刪除頭 —— 包括那些我們確認(rèn)為編碼有意義的信息,應(yīng)該為最相關(guān)的任務(wù)。許多頭也可以在不影響任何性能的情況下關(guān)閉,這再次表明,即使是BERT-base也嚴(yán)重參數(shù)化了。

BERT的自注意力模式

圖6,模型的性能,一次禁用一個(gè)頭,藍(lán)色線表示沒(méi)有禁用頭的基線性能。較深的顏色對(duì)應(yīng)較高的性能分?jǐn)?shù)。

機(jī)器翻譯任務(wù)也得出了類似的獨(dú)立結(jié)論,即將注意力權(quán)重歸零,而不是用統(tǒng)一注意力代替它們(Michel, Levy, & Neubig, 2019)。我們進(jìn)一步表明,這種觀察不僅擴(kuò)展到頭,而且擴(kuò)展到整個(gè)層:根據(jù)任務(wù)的不同,整個(gè)層可能對(duì)模型性能有害!

BERT的自注意力模式

圖7,禁用一個(gè)層的模型的性能。

討論

我們的主要貢獻(xiàn)在于,雖然BERT的大多數(shù)研究都集中在探索預(yù)訓(xùn)練好的模型上,但我們提出了一個(gè)問(wèn)題,即在微調(diào)過(guò)程中會(huì)發(fā)生什么,以及通過(guò)自注意力機(jī)制獲得的表征有多大意義。到目前為止,我們還沒(méi)有找到語(yǔ)言上有意義的自注意力圖對(duì)微調(diào)BERT的表現(xiàn)至關(guān)重要的證據(jù)。我們的研究結(jié)果有助于從以下幾個(gè)方向?qū)赥ransformer模型的屬性進(jìn)行持續(xù)的討論:

a)BERT過(guò)度參數(shù)化了。在我們的實(shí)驗(yàn)中,我們一次只禁用一個(gè)頭,而在大多數(shù)情況下,模型的性能并沒(méi)有受到影響,這一事實(shí)表明,許多頭具有功能重復(fù),即禁用一個(gè)頭不會(huì)損害模型,因?yàn)橄嗤男畔⒖梢栽谄渌胤将@得。這個(gè)結(jié)果指向了過(guò)度參數(shù)化,并解釋了像ALBert和TinyBERT這樣的小型BERT的成功。

這種過(guò)度參數(shù)化意味著,BERT可能會(huì)有一些非常重要的頭,它們?cè)谡Z(yǔ)言上具有有意義的自注意力模式,但為了證明這一點(diǎn),我們必須嘗試禁用所有可能的頭組合(這是不可行的)。在同一時(shí)期的一項(xiàng)研究中提出了一個(gè)很有前途的替代方案:(Voita, Talbot, Moiseev, Sennrich, & Titov, 2019)通過(guò)使用具有修剪效果的正則化目標(biāo)對(duì)模型進(jìn)行finetune,確定了基礎(chǔ)Transformer的“重要”頭。

b)BERT不需要那么聰明來(lái)完成這些任務(wù)。BERT在沒(méi)有預(yù)訓(xùn)練的情況下可以很好地完成大多數(shù)GLUE任務(wù),這一事實(shí)表明,在很大程度上,不需要太多的語(yǔ)言知識(shí)就可以解決這些問(wèn)題。與口頭推理不同,它可能學(xué)會(huì)依靠數(shù)據(jù)集中的各種捷徑、偏見(jiàn)和人為因素來(lái)做出正確的預(yù)測(cè)。在這種情況下,它的自注意力圖不一定對(duì)我們有意義。這一發(fā)現(xiàn)支持了當(dāng)前許多數(shù)據(jù)集問(wèn)題的最新發(fā)現(xiàn)(Gururangan et al., 2018; McCoy, Pavlick, & Linzen, 2019)。

另一種解釋是BERT的成功是由于玄學(xué),而不是由于自注意力。例如,在finetune之后對(duì)標(biāo)點(diǎn)符號(hào)的高度關(guān)注可能意味著該模型實(shí)際上學(xué)會(huì)了依賴于某些其他組件,或者存在一些我們無(wú)法理解的深層模式。此外,注意力在多大程度上可以用來(lái)解釋模型預(yù)測(cè)的原則目前正在辯論(Jain & Wallace, 2019;Serrano & Smith, 2019;Wiegreffe & Pinter, 2019)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3874

    瀏覽量

    140491
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23032
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    小白學(xué)大模型:大模型加速的秘密 FlashAttention 1/2/3

    在Transformer架構(gòu)中,注意力機(jī)制的計(jì)算復(fù)雜度與序列長(zhǎng)度(即文本長(zhǎng)度)呈平方關(guān)系()。這意味著,當(dāng)模型需要處理更長(zhǎng)的文本時(shí)(比如從幾千個(gè)詞到幾萬(wàn)個(gè)詞),計(jì)算時(shí)間和所需的內(nèi)存會(huì)急劇增加。最開(kāi)始
    的頭像 發(fā)表于 09-10 09:28 ?4096次閱讀
    小白學(xué)大模型:大模型加速的秘密 FlashAttention 1/2/3

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】+看視頻+看書(shū)籍+國(guó)產(chǎn)開(kāi)源大模型DeepSeekV3技術(shù)詳解--1

    大小的潛在向量 (Latent Vector) c_t 中。同時(shí),為了保證對(duì)近期上下文的精確感知,它依然會(huì)實(shí)時(shí)計(jì)算當(dāng)前 token 的 K 和 V。 最終,注意力機(jī)制的計(jì)算將同時(shí)作用于“壓縮的歷史
    發(fā)表于 08-23 15:20

    如何在NVIDIA Blackwell GPU上優(yōu)化DeepSeek R1吞吐量

    開(kāi)源 DeepSeek R1 模型的創(chuàng)新架構(gòu)包含多頭潛在注意力機(jī)制 (MLA) 和大型稀疏混合專家模型 (MoE),其顯著提升了大語(yǔ)言模型 (LLM) 的推理效率。
    的頭像 發(fā)表于 08-12 15:19 ?3477次閱讀
    如何在NVIDIA Blackwell GPU上優(yōu)化DeepSeek R1吞吐量

    具有旁路 LDO 的降壓型穩(wěn)壓器,用于多頻段/模式 RF 功率放大器 skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()具有旁路 LDO 的降壓型穩(wěn)壓器,用于多頻段/模式 RF 功率放大器相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊(cè),更有具有旁路 LDO 的降壓型穩(wěn)壓器,用于多頻段/模式 RF 功
    發(fā)表于 07-24 18:31
    具有<b class='flag-5'>自</b>旁路 LDO 的降壓型穩(wěn)壓器,用于多頻段/<b class='flag-5'>模式</b> RF 功率放大器 skyworksinc

    經(jīng)顱電刺激適應(yīng)癥之tDCS治療注意力缺陷ADHD

    ADHD是常見(jiàn)神經(jīng)行為障礙,癥狀包括注意力不集中、多動(dòng)和沖動(dòng),兒童和青少年患病率為5%-7.2%,成人在1%-10%,男孩多于女孩,成年后部分癥狀會(huì)持續(xù),引發(fā)多種并發(fā)癥,給個(gè)人、家庭和社會(huì)帶來(lái)
    的頭像 發(fā)表于 04-22 19:49 ?143次閱讀
    經(jīng)顱電刺激適應(yīng)癥之tDCS治療<b class='flag-5'>注意力</b>缺陷ADHD

    ?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析

    支持生成式任務(wù)。 多模態(tài)融合 :通過(guò)跨模態(tài)注意力機(jī)制、投影層(如CLIP將圖像文本映射到同一空間)或適配器
    的頭像 發(fā)表于 03-17 15:32 ?6725次閱讀
    ?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析

    如何使用MATLAB構(gòu)建Transformer模型

    LanguageProcessing, NLP)中的序列到序列任務(wù),如機(jī)器翻譯。Transformer 通過(guò)引入注意力機(jī)制使得處理長(zhǎng)距離依賴關(guān)系時(shí)變得高效。因此 Vaswani 等人的論文強(qiáng)調(diào)“注意力是所需的一切”。
    的頭像 發(fā)表于 02-06 10:21 ?5256次閱讀
    如何使用MATLAB構(gòu)建Transformer模型

    自動(dòng)駕駛?cè)珬?b class='flag-5'>自研可行嗎?

    合作開(kāi)發(fā))。全棧模式的核心優(yōu)勢(shì)在于對(duì)技術(shù)的全面掌控和數(shù)據(jù)的深度挖掘,從而實(shí)現(xiàn)快速迭代、精準(zhǔn)優(yōu)化和更強(qiáng)的市場(chǎng)競(jìng)爭(zhēng)。這種模式也伴隨著高昂的研發(fā)成本、復(fù)雜的技術(shù)整合需求以及巨大的資源投
    的頭像 發(fā)表于 01-27 10:24 ?3243次閱讀

    AN-923: 在引導(dǎo)模式下使用ADAU1701/ADAU1702設(shè)計(jì)系統(tǒng)

    電子發(fā)燒友網(wǎng)站提供《AN-923: 在引導(dǎo)模式下使用ADAU1701/ADAU1702設(shè)計(jì)系統(tǒng).pdf》資料免費(fèi)下載
    發(fā)表于 01-15 15:33 ?4次下載
    AN-923: 在<b class='flag-5'>自</b>引導(dǎo)<b class='flag-5'>模式</b>下使用ADAU1701/ADAU1702設(shè)計(jì)系統(tǒng)

    企業(yè)AI算租賃模式的好處

    構(gòu)建和維護(hù)一個(gè)高效、可擴(kuò)展的AI算基礎(chǔ)設(shè)施,不僅需要巨額的初期投資,還涉及復(fù)雜的運(yùn)維管理和持續(xù)的技術(shù)升級(jí)。而AI算租賃模式為企業(yè)提供了一種靈活、高效且成本可控的解決方案。下面,AI部落小編帶您探討企業(yè)采用AI算
    的頭像 發(fā)表于 12-24 10:49 ?1467次閱讀

    ADS1299S是否推薦有與DEMO匹配的傳感器頭?

    我們目前有個(gè)項(xiàng)目主要用于檢測(cè)幼兒的注意力,請(qǐng)問(wèn)一下,TI ADS1299S是否推薦有與DEMO匹配的傳感器頭?如果有,請(qǐng)推薦。
    發(fā)表于 11-26 08:30

    一種基于因果路徑的層次圖卷積注意力網(wǎng)絡(luò)

    機(jī)電系統(tǒng)中的故障檢測(cè)對(duì)其可維護(hù)性和安全性至關(guān)重要。然而,系統(tǒng)監(jiān)測(cè)變量往往具有復(fù)雜的聯(lián)系,很難表征它們的關(guān)系并提取有效的特征。本文開(kāi)發(fā)了一種基于因果路徑的層次圖卷積注意力網(wǎng)絡(luò)(HGCAN),以提高復(fù)雜
    的頭像 發(fā)表于 11-12 09:52 ?1395次閱讀
    一種基于因果路徑的層次圖卷積<b class='flag-5'>注意力</b>網(wǎng)絡(luò)

    一種創(chuàng)新的動(dòng)態(tài)軌跡預(yù)測(cè)方法

    本文提出了一種動(dòng)態(tài)軌跡預(yù)測(cè)方法,通過(guò)結(jié)合歷史幀和歷史預(yù)測(cè)結(jié)果來(lái)提高預(yù)測(cè)的穩(wěn)定性和準(zhǔn)確性。它引入了歷史預(yù)測(cè)注意力模塊,以編碼連續(xù)預(yù)測(cè)之間的動(dòng)態(tài)關(guān)系,并通過(guò)三重因子注意力模塊實(shí)現(xiàn)了最先進(jìn)的性能。本方法能夠生成準(zhǔn)確且穩(wěn)定的未來(lái)軌跡,這對(duì)于自動(dòng)駕駛系統(tǒng)落地至關(guān)重要。
    的頭像 發(fā)表于 10-28 14:34 ?1451次閱讀
    一種創(chuàng)新的動(dòng)態(tài)軌跡預(yù)測(cè)方法

    全國(guó)產(chǎn)化唯理腦機(jī)接口疲勞預(yù)測(cè)解決方案

    注意力集中度。 人工危險(xiǎn)做業(yè)的場(chǎng)景。 易發(fā)生危險(xiǎn)事故的場(chǎng)景。 節(jié)奏快的流水線場(chǎng)景。 需要人工注意力高度集中的場(chǎng)景。 *在以上場(chǎng)景里,Galvani-E都可以與現(xiàn)有的安全帽、工作帽或者頭盔進(jìn)行集成,成本可控。 成品形態(tài)示例 腦電產(chǎn)品的作用
    的頭像 發(fā)表于 10-23 18:21 ?762次閱讀
    全國(guó)產(chǎn)化唯理腦機(jī)接口疲勞預(yù)測(cè)解決方案