chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

常用的feature scaling方法都有哪些?

新機(jī)器視覺(jué) ? 來(lái)源:CSDN ? 作者:hine-lee ? 2022-08-02 11:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

寫(xiě)在前面

Feature scaling,常見(jiàn)的提法有“特征歸一化”、“標(biāo)準(zhǔn)化”,是數(shù)據(jù)預(yù)處理中的重要技術(shù),有時(shí)甚至決定了算法能不能work以及work得好不好。談到feature scaling的必要性,最常用的2個(gè)例子可能是:

特征間的單位(尺度)可能不同,比如身高和體重,比如攝氏度和華氏度,比如房屋面積和房間數(shù),一個(gè)特征的變化范圍可能是[1000, 10000],另一個(gè)特征的變化范圍可能是[?0.1,0.2],在進(jìn)行距離有關(guān)的計(jì)算時(shí),單位的不同會(huì)導(dǎo)致計(jì)算結(jié)果的不同,尺度大的特征會(huì)起決定性作用,而尺度小的特征其作用可能會(huì)被忽略,為了消除特征間單位和尺度差異的影響,以對(duì)每維特征同等看待,需要對(duì)特征進(jìn)行歸一化。

原始特征下,因尺度差異,其損失函數(shù)的等高線圖可能是橢圓形,梯度方向垂直于等高線,下降會(huì)走zigzag路線,而不是指向local minimum。通過(guò)對(duì)特征進(jìn)行zero-mean and unit-variance變換后,其損失函數(shù)的等高線圖更接近圓形,梯度下降的方向震蕩更小,收斂更快,如下圖所示,圖片來(lái)自Andrew Ng。

2e5c1b5a-11a0-11ed-ba43-dac502259ad0.png

Feature Scaling from Andrew Ng 對(duì)于feature scaling中最常使用的Standardization,似乎“無(wú)腦上”就行了,本文想多探究一些為什么,

常用的feature scaling方法都有哪些?

什么情況下該使用什么feature scaling方法?有沒(méi)有一些指導(dǎo)思想?

所有的機(jī)器學(xué)習(xí)算法都需要feature scaling嗎?有沒(méi)有例外?

損失函數(shù)的等高線圖都是橢圓或同心圓嗎?能用橢圓和圓來(lái)簡(jiǎn)單解釋feature scaling的作用嗎?

如果損失函數(shù)的等高線圖很復(fù)雜,feature scaling還有其他直觀解釋嗎?

根據(jù)查閱到的資料,本文將嘗試回答上面的問(wèn)題。但筆者能力有限,空有困惑,能講到哪算哪吧(微笑)。

常用feature scaling方法

在問(wèn)為什么前,先看是什么。 給定數(shù)據(jù)集,令特征向量為x,維數(shù)為D,樣本數(shù)量為R,可構(gòu)成D×R的矩陣,一列為一個(gè)樣本,一行為一維特征,如下圖所示,圖片來(lái)自Hung-yi Lee pdf-Gradient Descent:

2e764034-11a0-11ed-ba43-dac502259ad0.png

feature matrix feature scaling的方法可以分成2類(lèi),逐行進(jìn)行和逐列進(jìn)行。逐行是對(duì)每一維特征操作,逐列是對(duì)每個(gè)樣本操作,上圖為逐行操作中特征標(biāo)準(zhǔn)化的示例。 具體地,常用feature scaling方法如下,來(lái)自wiki,

Rescaling (min-max normalization、range scaling):

2e886872-11a0-11ed-ba43-dac502259ad0.png

將每一維特征線性映射到目標(biāo)范圍[a,b],即將最小值映射為a,最大值映射為b,常用目標(biāo)范圍為[0,1]和[?1,1],特別地,映射到[0,1]計(jì)算方式為:

2ea37086-11a0-11ed-ba43-dac502259ad0.png

Mean normalization:

2eadd44a-11a0-11ed-ba43-dac502259ad0.png

將均值映射為0,同時(shí)用最大值最小值的差對(duì)特征進(jìn)行歸一化,一種更常見(jiàn)的做法是用標(biāo)準(zhǔn)差進(jìn)行歸一化,如下。

Standardization (Z-score Normalization):

2eba3780-11a0-11ed-ba43-dac502259ad0.png 每維特征0均值1方差(zero-mean and unit-variance)。

Scaling to unit length:

2ec2efce-11a0-11ed-ba43-dac502259ad0.png 將每個(gè)樣本的特征向量除以其長(zhǎng)度,即對(duì)樣本特征向量的長(zhǎng)度進(jìn)行歸一化,長(zhǎng)度的度量常使用的是L2 norm(歐氏距離),有時(shí)也會(huì)采用L1 norm,不同度量方式的一種對(duì)比可以參見(jiàn)論文“CVPR2005-Histograms of Oriented Gradients for Human Detection”。 上述4種feature scaling方式,前3種為逐行操作,最后1種為逐列操作。容易讓人困惑的一點(diǎn)是指代混淆,Standardization指代比較清晰,但是單說(shuō)Normalization有時(shí)會(huì)指代min-max normalization,有時(shí)會(huì)指代Standardization,有時(shí)會(huì)指代Scaling to unit length。

計(jì)算方式上對(duì)比分析

前3種feature scaling的計(jì)算方式為減一個(gè)統(tǒng)計(jì)量再除以一個(gè)統(tǒng)計(jì)量,最后1種為除以向量自身的長(zhǎng)度。

減一個(gè)統(tǒng)計(jì)量可以看成選哪個(gè)值作為原點(diǎn),是最小值還是均值,并將整個(gè)數(shù)據(jù)集平移到這個(gè)新的原點(diǎn)位置。如果特征間偏置不同對(duì)后續(xù)過(guò)程有負(fù)面影響,則該操作是有益的,可以看成是某種偏置無(wú)關(guān)操作;如果原始特征值有特殊意義,比如稀疏性,該操作可能會(huì)破壞其稀疏性。

除以一個(gè)統(tǒng)計(jì)量可以看成在坐標(biāo)軸方向上對(duì)特征進(jìn)行縮放,用于降低特征尺度的影響,可以看成是某種尺度無(wú)關(guān)操作??s放可以使用最大值最小值間的跨度,也可以使用標(biāo)準(zhǔn)差(到中心點(diǎn)的平均距離),前者對(duì)outliers敏感,outliers對(duì)后者影響與outliers數(shù)量和數(shù)據(jù)集大小有關(guān),outliers越少數(shù)據(jù)集越大影響越小。

除以長(zhǎng)度相當(dāng)于把長(zhǎng)度歸一化,把所有樣本映射到單位球上,可以看成是某種長(zhǎng)度無(wú)關(guān)操作,比如,詞頻特征要移除文章長(zhǎng)度的影響,圖像處理中某些特征要移除光照強(qiáng)度的影響,以及方便計(jì)算余弦距離或內(nèi)積相似度等。

稀疏數(shù)據(jù)、outliers相關(guān)的更多數(shù)據(jù)預(yù)處理內(nèi)容可以參見(jiàn)scikit learn-5.3. Preprocessing data。 從幾何上觀察上述方法的作用,圖片來(lái)自CS231n-Neural Networks Part 2: Setting up the Data and the Loss,zero-mean將數(shù)據(jù)集平移到原點(diǎn),unit-variance使每維特征上的跨度相當(dāng),圖中可以明顯看出兩維特征間存在線性相關(guān)性,Standardization操作并沒(méi)有消除這種相關(guān)性。

2ed3030a-11a0-11ed-ba43-dac502259ad0.png

Standardization 可通過(guò)PCA方法移除線性相關(guān)性(decorrelation),即引入旋轉(zhuǎn),找到新的坐標(biāo)軸方向,在新坐標(biāo)軸方向上用“標(biāo)準(zhǔn)差”進(jìn)行縮放,如下圖所示,圖片來(lái)自鏈接,圖中同時(shí)描述了unit length的作用——將所有樣本映射到單位球上。

2ee9c7b6-11a0-11ed-ba43-dac502259ad0.png

Effect of the operations of standardization and length normalization 當(dāng)特征維數(shù)更多時(shí),對(duì)比如下,圖片來(lái)自youtube,

2ef7df40-11a0-11ed-ba43-dac502259ad0.png

feature scaling comparison 總的來(lái)說(shuō),歸一化/標(biāo)準(zhǔn)化的目的是為了獲得某種“無(wú)關(guān)性”——偏置無(wú)關(guān)、尺度無(wú)關(guān)、長(zhǎng)度無(wú)關(guān)……當(dāng)歸一化/標(biāo)準(zhǔn)化方法背后的物理意義和幾何含義與當(dāng)前問(wèn)題的需要相契合時(shí),其對(duì)解決該問(wèn)題就有正向作用,反之,就會(huì)起反作用。所以,“何時(shí)選擇何種方法”取決于待解決的問(wèn)題,即problem-dependent。

feature scaling 需要還是不需要

下圖來(lái)自data school-Comparing supervised learning algorithms,對(duì)比了幾個(gè)監(jiān)督學(xué)習(xí)算法,最右側(cè)兩列為是否需要feature scaling。

2f1395dc-11a0-11ed-ba43-dac502259ad0.png

Comparing supervised learning algorithms 下面具體分析一下。

什么時(shí)候需要feature scaling?

涉及或隱含距離計(jì)算的算法,比如K-means、KNN、PCA、SVM等,一般需要feature scaling,因?yàn)椋?/p>

zero-mean一般可以增加樣本間余弦距離或者內(nèi)積結(jié)果的差異,區(qū)分力更強(qiáng),假設(shè)數(shù)據(jù)集集中分布在第一象限遙遠(yuǎn)的右上角,將其平移到原點(diǎn)處,可以想象樣本間余弦距離的差異被放大了。在模版匹配中,zero-mean可以明顯提高響應(yīng)結(jié)果的區(qū)分度。 就歐式距離而言,增大某個(gè)特征的尺度,相當(dāng)于增加了其在距離計(jì)算中的權(quán)重,如果有明確的先驗(yàn)知識(shí)表明某個(gè)特征很重要,那么適當(dāng)增加其權(quán)重可能有正向效果,但如果沒(méi)有這樣的先驗(yàn),或者目的就是想知道哪些特征更重要,那么就需要先f(wàn)eature scaling,對(duì)各維特征等而視之。 增大尺度的同時(shí)也增大了該特征維度上的方差,PCA算法傾向于關(guān)注方差較大的特征所在的坐標(biāo)軸方向,其他特征可能會(huì)被忽視,因此,在PCA前做Standardization效果可能更好,如下圖所示,圖片來(lái)自scikit learn-Importance of Feature Scaling,

2f28b3cc-11a0-11ed-ba43-dac502259ad0.png

PCA and Standardization

損失函數(shù)中含有正則項(xiàng)時(shí),一般需要feature scaling:對(duì)于線性模型y=wx+b而言,x的任何線性變換(平移、放縮),都可以被w和b“吸收”掉,理論上,不會(huì)影響模型的擬合能力。但是,如果損失函數(shù)中含有正則項(xiàng),如λ∣∣w∣∣^2,λ為超參數(shù),其對(duì)w的每一個(gè)參數(shù)施加同樣的懲罰,但對(duì)于某一維特征xi而言,其scale越大,系數(shù)wi越小,其在正則項(xiàng)中的比重就會(huì)變小,相當(dāng)于對(duì)wi懲罰變小,即損失函數(shù)會(huì)相對(duì)忽視那些scale增大的特征,這并不合理,所以需要feature scaling,使損失函數(shù)平等看待每一維特征。

梯度下降算法,需要feature scaling。梯度下降的參數(shù)更新公式如下,

2f341d20-11a0-11ed-ba43-dac502259ad0.png

E(W)為損失函數(shù),收斂速度取決于:參數(shù)的初始位置到local minima的距離,以及學(xué)習(xí)率η的大小。一維情況下,在local minima附近,不同學(xué)習(xí)率對(duì)梯度下降的影響如下圖所示:

2f4546f4-11a0-11ed-ba43-dac502259ad0.png

Gradient descent for different learning rates 多維情況下可以分解成多個(gè)上圖,每個(gè)維度上分別下降,參數(shù)W為向量,但學(xué)習(xí)率只有1個(gè),即所有參數(shù)維度共用同一個(gè)學(xué)習(xí)率(暫不考慮為每個(gè)維度都分配單獨(dú)學(xué)習(xí)率的算法)。收斂意味著在每個(gè)參數(shù)維度上都取得極小值,每個(gè)參數(shù)維度上的偏導(dǎo)數(shù)都為0,但是每個(gè)參數(shù)維度上的下降速度是不同的,為了每個(gè)維度上都能收斂,學(xué)習(xí)率應(yīng)取所有維度在當(dāng)前位置合適步長(zhǎng)中最小的那個(gè)。下面討論feature scaling對(duì)gradient descent的作用,

2f4f67f6-11a0-11ed-ba43-dac502259ad0.png

不同方向上的下降速度變化不同(二階導(dǎo)不同,曲率不同),恰由輸入的協(xié)方差矩陣決定,通過(guò)scaling改變了損失函數(shù)的形狀,減小不同方向上的曲率差異。將每個(gè)維度上的下降分解來(lái)看,給定一個(gè)下降步長(zhǎng),如果不夠小,有的維度下降的多,有的下降的少,有的還可能在上升,損失函數(shù)的整體表現(xiàn)可能是上升也可能是下降,就會(huì)不穩(wěn)定。scaling后不同方向上的曲率相對(duì)更接近,更容易選擇到合適的學(xué)習(xí)率,使下降過(guò)程相對(duì)更穩(wěn)定。

zero center與參數(shù)初始化相配合,縮短初始參數(shù)位置與local minimum間的距離,加快收斂。模型的最終參數(shù)是未知的,所以一般隨機(jī)初始化,比如從0均值的均勻分布或高斯分布中采樣得到,對(duì)線性模型而言,其分界面初始位置大致在原點(diǎn)附近,bias經(jīng)常初始化為0,則分界面直接通過(guò)原點(diǎn)。同時(shí),為了收斂,學(xué)習(xí)率不會(huì)很大。而每個(gè)數(shù)據(jù)集的特征分布是不一樣的,如果其分布集中且距離原點(diǎn)較遠(yuǎn),比如位于第一象限遙遠(yuǎn)的右上角,分界面可能需要花費(fèi)很多步驟才能“爬到”數(shù)據(jù)集所在的位置。所以,無(wú)論什么數(shù)據(jù)集,先平移到原點(diǎn),再配合參數(shù)初始化,可以保證分界面一定會(huì)穿過(guò)數(shù)據(jù)集。此外,outliers常分布在數(shù)據(jù)集的外圍,與分界面從外部向內(nèi)挪動(dòng)相比,從中心區(qū)域開(kāi)始挪動(dòng)可能受outliers的影響更小。

對(duì)于采用均方誤差損失LMS的線性模型,損失函數(shù)恰為二階,如下圖所示

另有從Hessian矩陣特征值以及condition number角度的理解,詳見(jiàn)Lecun paper-Efficient BackProp中的Convergence of Gradient Descent一節(jié),有清晰的數(shù)學(xué)描述,同時(shí)還介紹了白化的作用——解除特征間的線性相關(guān)性,使每個(gè)維度上的梯度下降可獨(dú)立看待。

文章開(kāi)篇的橢圓形和圓形等高線圖,僅在采用均方誤差的線性模型上適用,其他損失函數(shù)或更復(fù)雜的模型,如深度神經(jīng)網(wǎng)絡(luò),損失函數(shù)的error surface可能很復(fù)雜,并不能簡(jiǎn)單地用橢圓和圓來(lái)刻畫(huà),所以用它來(lái)解釋feature scaling對(duì)所有損失函數(shù)的梯度下降的作用,似乎過(guò)于簡(jiǎn)化,見(jiàn)Hinton vedio-3.2 The error surface for a linear neuron。

對(duì)于損失函數(shù)不是均方誤差的情況,只要權(quán)重w與輸入特征x間是相乘關(guān)系,損失函數(shù)對(duì)w的偏導(dǎo)必然含有因子x,w的梯度下降速度就會(huì)受到特征x尺度的影響。理論上為每個(gè)參數(shù)都設(shè)置上自適應(yīng)的學(xué)習(xí)率,可以吸收掉x尺度的影響,但在實(shí)踐中出于計(jì)算量的考慮,往往還是所有參數(shù)共用一個(gè)學(xué)習(xí)率,此時(shí)x尺度不同可能會(huì)導(dǎo)致不同方向上的下降速度懸殊較大,學(xué)習(xí)率不容易選擇,下降過(guò)程也可能不穩(wěn)定,通過(guò)scaling可對(duì)不同方向上的下降速度有所控制,使下降過(guò)程相對(duì)更穩(wěn)定。

對(duì)于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),對(duì)輸入做feature scaling也很重要,因?yàn)椴捎胹igmoid等有飽和區(qū)的激活函數(shù),如果輸入分布范圍很廣,參數(shù)初始化時(shí)沒(méi)有適配好,很容易直接陷入飽和區(qū),導(dǎo)致梯度消失,所以,需要對(duì)輸入做Standardization或映射到[0,1]、[?1,1],配合精心設(shè)計(jì)的參數(shù)初始化方法,對(duì)值域進(jìn)行控制。但自從有了Batch Normalization,每次線性變換改變特征分布后,都會(huì)重新進(jìn)行Normalization,似乎可以不太需要對(duì)網(wǎng)絡(luò)的輸入進(jìn)行feature scaling了?但習(xí)慣上還是會(huì)做feature scaling。

什么時(shí)候不需要Feature Scaling?

與距離計(jì)算無(wú)關(guān)的概率模型,不需要feature scaling,比如Naive Bayes; 與距離計(jì)算無(wú)關(guān)的基于樹(shù)的模型,不需要feature scaling,比如決策樹(shù)、隨機(jī)森林等,樹(shù)中節(jié)點(diǎn)的選擇只關(guān)注當(dāng)前特征在哪里切分對(duì)分類(lèi)更好,即只在意特征內(nèi)部的相對(duì)大小,而與特征間的相對(duì)大小無(wú)關(guān)。

小結(jié)

這篇文章寫(xiě)得十分艱難,一開(kāi)始以為蠻簡(jiǎn)單直接,但隨著探索的深入,冒出的問(wèn)號(hào)越來(lái)越多,打破了很多原來(lái)的“理所當(dāng)然”,所以,在寫(xiě)的過(guò)程中不停地做加法,很多地方想解釋得盡量直觀,又不想照搬太多公式,但自己的理解又不夠深刻,導(dǎo)致現(xiàn)在敘述這么冗長(zhǎng),希望以后在寫(xiě)文時(shí)能更專注更精煉。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4740

    瀏覽量

    96727
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4400

    瀏覽量

    66370

原文標(biāo)題:小結(jié)

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    諧波源定位常用方法有哪些?

    諧波源定位的核心是通過(guò) “信號(hào)測(cè)量→特征分析→邏輯判斷”,確定電網(wǎng)中產(chǎn)生諧波的具體設(shè)備、用戶或區(qū)域,常用方法可按 “原理差異” 分為功率流向類(lèi)、暫態(tài)對(duì)比類(lèi)、阻抗分析類(lèi)、相位判斷類(lèi)、數(shù)據(jù)驅(qū)動(dòng)類(lèi)五大類(lèi)
    的頭像 發(fā)表于 10-13 16:41 ?277次閱讀

    使用jQuery的常用方法與返回值分析

    使用jQuery的常用方法與返回值分析 jQuery是一個(gè)輕量級(jí)的JavaScript庫(kù),旨在簡(jiǎn)化HTML文檔遍歷和操作、事件處理以及動(dòng)畫(huà)效果的創(chuàng)建。本文將介紹一些常用的jQuery方法
    發(fā)表于 10-01 20:18

    常用電子元器件識(shí)別與檢測(cè)

    1、電阻器的分類(lèi)常用的電阻器有固定式電阻器和電位器 1-1、碳膜電阻 碳沉積在瓷棒或者瓷管上,形成一層結(jié)晶碳膜。改變碳膜厚度和用刻槽的方法變更碳膜的長(zhǎng)度,可以得到不同的阻值。碳膜電阻成本較低
    發(fā)表于 05-30 15:36

    常用電器控制電路精選

    本文共精選了200多個(gè)電路,涉及電工技術(shù)的各個(gè)領(lǐng)域。全書(shū)共分為五大部分:電動(dòng)機(jī)保護(hù)、能耗制動(dòng)及水位控制電路,電動(dòng)機(jī)和發(fā)電機(jī)啟動(dòng)、驅(qū)動(dòng)及調(diào)速控制電路,農(nóng)村電工制作及實(shí)用電路,常用工業(yè)設(shè)備、日用
    發(fā)表于 05-14 16:59

    常用電子元器件簡(jiǎn)明手冊(cè)(免費(fèi))

    元件、繼電器、開(kāi)關(guān)、專用集成電路、片狀元器件等。還包括常用元器件的簡(jiǎn)易檢測(cè)和常用電子元器件資料查詢方法等內(nèi)容。 純分享貼,有需要可以直接下載附件獲取完整資料! (如果內(nèi)容有幫助可以關(guān)注、點(diǎn)贊、評(píng)論支持一下哦~)
    發(fā)表于 03-21 16:50

    Android Studio Ladybug Feature Drop版本的新功能

    Android Studio Ladybug Feature Drop (2024.2.2) 穩(wěn)定版已推出!
    的頭像 發(fā)表于 03-03 16:13 ?719次閱讀
    Android Studio Ladybug <b class='flag-5'>Feature</b> Drop版本的新功能

    半導(dǎo)體常用器件

    半導(dǎo)體常用器件的介紹
    發(fā)表于 02-07 15:27 ?0次下載

    電源浪涌測(cè)試方法

    電源浪涌測(cè)試是評(píng)估電氣設(shè)備在電源浪涌條件下的性能表現(xiàn)的重要手段。以下是電源浪涌測(cè)試的一些常用方法
    的頭像 發(fā)表于 01-27 11:31 ?2058次閱讀

    焊接技術(shù)流程優(yōu)化方法

    焊接方法的選擇對(duì)焊接質(zhì)量有著直接影響。常見(jiàn)的焊接方法包括電弧焊、氣體保護(hù)焊、激光焊等。每種方法都有其特點(diǎn)和適用范圍,選擇合適的焊接方法可以
    的頭像 發(fā)表于 01-19 13:52 ?1607次閱讀

    2025年:大模型Scaling Law還能繼續(xù)嗎

    ? OpenAI 最近推出了其新的推理模型 o3,該模型在 ARC 數(shù)據(jù)集上大幅超越了之前的最佳性能(SOTA),并在具有挑戰(zhàn)性的 FrontierMath 數(shù)據(jù)集上取得了令人驚嘆的結(jié)果。很明顯,該模型在推理能力方面是一個(gè)重要的進(jìn)步。 然而,最近關(guān)于人工智能進(jìn)展停滯的報(bào)道中包含了一種對(duì)進(jìn)展速度的悲觀情緒。許多人可能仍然在思考大型語(yǔ)言模型(LLM)擴(kuò)展法則,這些法則預(yù)測(cè)計(jì)算、數(shù)據(jù)和模型大小的增加將導(dǎo)致更好的模型,是否已經(jīng)“遇到了瓶頸”。我們是否達(dá)到了基
    的頭像 發(fā)表于 01-15 14:32 ?767次閱讀
    2025年:大模型<b class='flag-5'>Scaling</b> Law還能繼續(xù)嗎

    淺談制備精細(xì)焊粉(超微焊粉)的方法

    制備精細(xì)焊粉的方法有多種,以下介紹五種常用方法
    的頭像 發(fā)表于 01-07 16:00 ?565次閱讀
    淺談制備精細(xì)焊粉(超微焊粉)的<b class='flag-5'>方法</b>

    訊飛星火低代碼智能體平臺(tái)全新升級(jí)

    Scaling Law魔法觸達(dá)瓶頸,智能體正在創(chuàng)造下一個(gè)風(fēng)口。
    的頭像 發(fā)表于 11-28 14:42 ?1900次閱讀

    Jtti:常用的網(wǎng)絡(luò)質(zhì)量監(jiān)控方法有哪些

    常用的網(wǎng)絡(luò)質(zhì)量監(jiān)控方法包括以下幾種: 1. ICMP探測(cè): ? 使用ICMP協(xié)議(如Ping)來(lái)檢測(cè)網(wǎng)絡(luò)連通性和質(zhì)量。這種方法通過(guò)發(fā)送探測(cè)數(shù)據(jù)包并分析回包結(jié)果來(lái)監(jiān)控網(wǎng)絡(luò),典型指標(biāo)包括丟包率、延遲等
    的頭像 發(fā)表于 11-15 15:50 ?1374次閱讀

    eda中常用的數(shù)據(jù)處理方法

    探索性數(shù)據(jù)分析(EDA)是一種統(tǒng)計(jì)方法,用于使用統(tǒng)計(jì)圖表、圖形和計(jì)算來(lái)發(fā)現(xiàn)數(shù)據(jù)中的模式、趨勢(shì)和異常值。在進(jìn)行EDA時(shí),數(shù)據(jù)處理是至關(guān)重要的,因?yàn)樗梢詭椭覀兏玫乩斫鈹?shù)據(jù)集,為進(jìn)一步的分析和建模
    的頭像 發(fā)表于 11-13 10:57 ?1190次閱讀

    異地組網(wǎng)最簡(jiǎn)單的方法

    異地組網(wǎng)的方法多種多樣,每種方法都有其特定的優(yōu)缺點(diǎn)和適用場(chǎng)景,本期梳理一些相對(duì)簡(jiǎn)單且常用的異地組網(wǎng)方法,開(kāi)始~ 一、使用硬件路由器的 VPN
    的頭像 發(fā)表于 10-24 11:16 ?2244次閱讀