日韩久久无码免费看A,90分钟的电影

↓推薦關(guān)注↓

[ 引言 ] 雖然目前dask,cudf等包的出現(xiàn)，使得我們的數(shù)據(jù)處理大大得到了加速，但是并不是每個(gè)人都有比較好的gpu，非常多的朋友仍然還在使用pandas工具包，但有時(shí)候真的很無(wú)奈，pandas的許多問(wèn)題我們都需要使用apply函數(shù)來(lái)進(jìn)行處理，而apply函數(shù)是非常慢的，本文我們就介紹如何加速apply函數(shù)600倍的技巧。

實(shí)驗(yàn)對(duì)比01Apply(Baseline) 我們以Apply為例，原始的Apply函數(shù)處理下面這個(gè)問(wèn)題，需要18.4s的時(shí)間。

importpandasaspd
importnumpyasnp
df=pd.DataFrame(np.random.randint(0,11,size=(1000000,5)),columns=('a','b','c','d','e'))
deffunc(a,b,c,d,e):
ife==10:
returnc*d
elif(e=5):
returnc+d
elifereturna+b
%%time
df['new']=df.apply(lambdax:func(x['a'],x['b'],x['c'],x['d'],x['e']),axis=1)
CPUtimes:user17.9s,sys:301ms,total:18.2s
Walltime:18.4s

02Swift加速因?yàn)樘幚硎遣⑿械?，所以我們可以使用Swift進(jìn)行加速，在使用Swift之后，相同的操作在我的機(jī)器上可以提升到7.67s。

%%time
#!pipinstallswifter
importswifter
df['new']=df.swifter.apply(lambdax:func(x['a'],x['b'],x['c'],x['d'],x['e']),axis=1)
HBox(children=(HTML(value='DaskApply'),FloatProgress(value=0.0,max=16.0),HTML(value='')))

CPUtimes:user329ms,sys:240ms,total:569ms
Walltime:7.67s

03向量化使用Pandas和Numpy的最快方法是將函數(shù)向量化。如果我們的操作是可以直接向量化的話，那么我們就盡可能的避免使用：

for循環(huán)；
列表處理；
apply等操作

在將上面的問(wèn)題轉(zhuǎn)化為下面的處理之后，我們的時(shí)間縮短為：421 ms。

%%time
df['new']=df['c']*df['d']#defaultcasee==10
mask=df['e']'new']=df['c']+df['d']
mask=df['e']'new']=df['a']+df['b']
CPUtimes:user134ms,sys:149ms,total:283ms
Walltime:421ms

04類別轉(zhuǎn)化+向量化 我們先將上面的類別轉(zhuǎn)化為int16型，再進(jìn)行相同的向量化操作，發(fā)現(xiàn)時(shí)間縮短為：116 ms。

forcolin('a','b','c','d'):
df[col]=df[col].astype(np.int16)
%%time
df['new']=df['c']*df['d']#defaultcasee==10
mask=df['e']'new']=df['c']+df['d']
mask=df['e']'new']=df['a']+df['b']
CPUtimes:user71.3ms,sys:42.5ms,total:114ms
Walltime:116ms

05轉(zhuǎn)化為values處理 在能轉(zhuǎn)化為.values的地方盡可能轉(zhuǎn)化為.values，再進(jìn)行操作。

此處先轉(zhuǎn)化為.values等價(jià)于轉(zhuǎn)化為numpy，這樣我們的向量化操作會(huì)更加快捷。

于是，上面的操作時(shí)間又被縮短為：74.9ms。

%%time
df['new']=df['c'].values*df['d'].values#defaultcasee==10
mask=df['e'].values'new']=df['c']+df['d']
mask=df['e'].values'new']=df['a']+df['b']
CPUtimes:user64.5ms,sys:12.5ms,total:77ms
Walltime:74.9ms

實(shí)驗(yàn)匯總 通過(guò)上面的一些小的技巧，我們將簡(jiǎn)單的Apply函數(shù)加速了幾百倍，具體的：

Apply: 18.4 s
Apply + Swifter: 7.67 s
Pandas vectorizatoin: 421 ms
Pandas vectorization + data types: 116 ms
Pandas vectorization + values + data types: 74.9ms

參考文獻(xiàn)：Do You Use Apply in Pandas? There is a 600x Faster Way

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

SWIFT

SWIFT

+關(guān)注

關(guān)注
0

文章
125

瀏覽量
24666
函數(shù)

函數(shù)

+關(guān)注

關(guān)注
3

文章
4405

瀏覽量
66784
向量

向量

+關(guān)注

關(guān)注
0

文章
55

瀏覽量
11974

原文標(biāo)題：Pandas 中 Apply 函數(shù)加速百倍的技巧

文章出處：【微信號(hào)：DBDevs，微信公眾號(hào)：數(shù)據(jù)分析與開(kāi)發(fā)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

如何加速apply函數(shù)600倍的技巧

評(píng)論