介紹
大家都知道數(shù)據(jù)清洗是數(shù)據(jù)分析過(guò)程中的一個(gè)重要部分。pandas有多種清洗文本字段的方法,可以用來(lái)為進(jìn)一步分析做準(zhǔn)備。隨著數(shù)據(jù)集越來(lái)越大,文本清洗的過(guò)程會(huì)逐漸變長(zhǎng),尋找一個(gè)能在合理時(shí)間內(nèi)有效運(yùn)行并可維護(hù)的方法變得非常重要。
本文將展示清洗大數(shù)據(jù)文件中文本字段的示例,幫助大家學(xué)習(xí)使用 Python 和 pandas 高效清理非結(jié)構(gòu)化文本字段的技巧。
問(wèn)題
假設(shè)你有一批全新工藝的威士忌想出售。你所在的愛(ài)荷華州,剛好有一個(gè)公開(kāi)的數(shù)據(jù)集顯示了該州所有的酒類銷(xiāo)售情況。這似乎是一個(gè)很好的機(jī)會(huì),你可以利用你的分析技能,看看誰(shuí)是這個(gè)州最大的客戶。有了這些數(shù)據(jù),你甚至可以為每個(gè)客戶規(guī)劃銷(xiāo)售流程。
你對(duì)這個(gè)機(jī)會(huì)感到興奮,但下載了數(shù)據(jù)后發(fā)現(xiàn)它相當(dāng)大。這個(gè)數(shù)據(jù)集是一個(gè)565MB的CSV文件,包含24列和2.3百萬(wàn)行。它雖然不是我們平時(shí)說(shuō)的“大數(shù)據(jù)”,但它依然足夠大到可以讓Excel卡死。同時(shí)它也大到讓一些pandas方法在比較慢的筆記本電腦上運(yùn)行地非常吃力。
本文中,我們將使用包括2019年所有銷(xiāo)售額的數(shù)據(jù)。當(dāng)然你也可以從網(wǎng)站上下載其他不同時(shí)間段的數(shù)據(jù)。
我們從導(dǎo)入模塊和讀取數(shù)據(jù)開(kāi)始,我會(huì)使用sidetable包來(lái)查看數(shù)據(jù)的概覽。這個(gè)包雖然不能用來(lái)做清洗,但我想強(qiáng)調(diào)一下它對(duì)于這些數(shù)據(jù)探索場(chǎng)景其實(shí)很有用。
數(shù)據(jù)
讀取數(shù)據(jù):
import pandas as pd
import numpy as np
import sidetable
df = pd.read_csv(‘2019_Iowa_Liquor_Sales.csv’)
數(shù)據(jù)長(zhǎng)這樣:
我們大概率要做的第一件事是看每一家商店的購(gòu)買(mǎi)量,并將它們從大到小排序。資源有限所以我們應(yīng)該集中精力在那些我們能從中獲得最好回報(bào)的地方。我們更應(yīng)該打電話給幾個(gè)大公司的賬戶,而不是那些夫妻小店。
sidetable是以可讀格式匯總數(shù)據(jù)的快捷方式。另一種方法是groupby加上其他操作。
df.stb.freq([‘Store Name’], value=‘Sale (Dollars)’, style=True, cum_cols=False)
很明顯在大多數(shù)情況下,每個(gè)位置的商店名稱都是唯一的。理想情況下我們希望看到的是Hy-Vee, Costco, Sam’s 等聚合在一起的內(nèi)容。
看來(lái)我們需要清洗數(shù)據(jù)了。
清洗嘗試·1
我們可以研究的第一種方法是使用.loc以及str的布爾過(guò)濾器來(lái)搜索Store Name列中的相關(guān)字符串。
df.loc[df[‘Store Name’].str.contains(‘Hy-Vee’, case=False), ‘Store_Group_1’] = ‘Hy-Vee’
上述代碼使用不區(qū)分大小寫(xiě)的方式來(lái)搜索字符串“Hy Vee”,并將值“Hy Vee”存儲(chǔ)在名為Store_Group_1的新列中。這個(gè)代碼可以有效地將“Hy Vee#3/BDI/Des Moines”或“Hy Vee Food Store/Urbandale”等名稱轉(zhuǎn)換為正常的“Hy Vee”。
用%%timeit來(lái)計(jì)算此操作的時(shí)間:
1.43 s ± 31.8 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
我們不想過(guò)早地進(jìn)行優(yōu)化,但我們可以使用regex=False參數(shù)來(lái)稍微加速一下:
df.loc[df[‘Store Name’].str.contains(‘Hy-Vee’, case=False, regex=False), ‘Store_Group_1’] = ‘Hy-Vee’
804 ms ± 27.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
來(lái)看下新列的情況:
df[‘Store_Group_1’].value_counts(dropna=False)
NaN 1617777
Hy-Vee 762568
Name: Store_Group_1, dtype: int64
可以看到我們已經(jīng)清理了Hy-Vee,但還有很多其他值需要我們處理。
.loc方法內(nèi)部包含大量代碼,速度其實(shí)可能很慢。我們可以利用這個(gè)思想,來(lái)尋找一些更易于執(zhí)行和維護(hù)的替代方案。
清洗嘗試·2
另一種非常有效和靈活的方法是使用np.select來(lái)進(jìn)行多匹配并在匹配時(shí)指定值。
有幾個(gè)很好的資源可以幫你學(xué)習(xí)如何使用np.select。這篇來(lái)自Dataquest的文章就是一個(gè)很好的概述。Nathan Cheever的這篇演講也十分有趣,內(nèi)容豐富。我建議你們可以看下這兩篇文章。
關(guān)于np.select的作用最簡(jiǎn)單的解釋是,它計(jì)算一個(gè)條件列表,如果有條件為真,就應(yīng)用相應(yīng)值的列表。
在我們的例子中,我們想查找不同的字符串,來(lái)替換為我們想要的規(guī)范值。
瀏覽完我們的數(shù)據(jù)后,我們把條件和值列表總結(jié)在store_patterns列表中。列表中的每個(gè)元組都是一個(gè)str.contains()方法,來(lái)查找和替換對(duì)應(yīng)的我們想要做聚合的規(guī)范值。
store_patterns = [
(df[‘Store Name’].str.contains(‘Hy-Vee’, case=False, regex=False), ‘Hy-Vee’),
(df[‘Store Name’].str.contains(‘Central City’,
case=False, regex=False), ‘Central City’),
(df[‘Store Name’].str.contains(“Smokin‘ Joe’s”,
case=False, regex=False), “Smokin‘ Joe’s”),
(df[‘Store Name’].str.contains(‘Walmart|Wal-Mart’,
case=False), ‘Wal-Mart’),
(df[‘Store Name’].str.contains(‘Fareway Stores’,
case=False, regex=False), ‘Fareway Stores’),
(df[‘Store Name’].str.contains(“Casey‘s”,
case=False, regex=False), “Casey’s General Store”),
(df[‘Store Name’].str.contains(“Sam‘s Club”, case=False, regex=False), “Sam’s Club”),
(df[‘Store Name’].str.contains(‘Kum & Go’, regex=False, case=False), ‘Kum & Go’),
(df[‘Store Name’].str.contains(‘CVS’, regex=False, case=False), ‘CVS Pharmacy’),
(df[‘Store Name’].str.contains(‘Walgreens’, regex=False, case=False), ‘Walgreens’),
(df[‘Store Name’].str.contains(‘Yesway’, regex=False, case=False), ‘Yesway Store’),
(df[‘Store Name’].str.contains(‘Target Store’, regex=False, case=False), ‘Target’),
(df[‘Store Name’].str.contains(‘Quik Trip’, regex=False, case=False), ‘Quik Trip’),
(df[‘Store Name’].str.contains(‘Circle K’, regex=False, case=False), ‘Circle K’),
(df[‘Store Name’].str.contains(‘Hometown Foods’, regex=False,
case=False), ‘Hometown Foods’),
(df[‘Store Name’].str.contains(“Bucky‘s”, case=False, regex=False), “Bucky’s Express”),
(df[‘Store Name’].str.contains(‘Kwik’, case=False, regex=False), ‘Kwik Shop’)
]
使用np.select很容易遇到條件和值不匹配的情況。所以我們將其合并為元組,以便更容易地跟蹤數(shù)據(jù)匹配。
想使用這種數(shù)據(jù)結(jié)構(gòu),我們需要將元組分成兩個(gè)單獨(dú)的列表。使用zip來(lái)把store_patterns分為store_criteria和store_values:
store_criteria, store_values = zip(*store_patterns)
df[‘Store_Group_1’] = np.select(store_criteria, store_values, ‘other’)
上述代碼將用文本值填充每個(gè)匹配項(xiàng)。如果沒(méi)有匹配項(xiàng),我們給它賦值‘other’。
數(shù)據(jù)現(xiàn)在長(zhǎng)這樣:
df.stb.freq([‘Store_Group_1’], value=‘Sale (Dollars)’, style=True, cum_cols=False)
看起來(lái)比之前好,但仍然有32.28%的‘other’。
思考下這樣做是不是更好:如果帳戶不匹配,我們使用Store Name字段,而不是‘other’。這樣來(lái)實(shí)現(xiàn):
df[‘Store_Group_1’] = np.select(store_criteria, store_values, None)
df[‘Store_Group_1’] = df[‘Store_Group_1’].combine_first(df[‘Store Name’])
這里使用了combine_first方法來(lái)將Store Name填充N(xiāo)one值,這是清理數(shù)據(jù)時(shí)要記住的一個(gè)簡(jiǎn)便技巧。
再來(lái)看下數(shù)據(jù):
df.stb.freq([‘Store_Group_1’], value=‘Sale (Dollars)’, style=True, cum_cols=False)
這樣看起來(lái)更好了,我們可以根據(jù)需要繼續(xù)細(xì)化分組。例如我們可能需要為Costco構(gòu)建一個(gè)字符串查找。
對(duì)于這個(gè)大型數(shù)據(jù)集來(lái)說(shuō),性能也還不錯(cuò):
13.2 s ± 328 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
這個(gè)方法的好處是你可以使用np.select來(lái)做數(shù)值分析或者上面展示的文本示例,非常靈活。這個(gè)方法也有一個(gè)弊端,那就是代碼量很大。如果你要清理的數(shù)據(jù)集非常大,那么用這個(gè)方法可能導(dǎo)致很多數(shù)據(jù)和代碼混合在一起。那么有沒(méi)有其他方法可以有差不多的性能,代碼更整潔一些?
清洗嘗試·3
這里要介紹的解決方案基于Matt Harrison的優(yōu)秀代碼示例,他開(kāi)發(fā)了一個(gè)可以做匹配和清洗的generalize函數(shù)。我做了一些修改,讓這個(gè)方法可以在這個(gè)示例中使用,我想給Matt一個(gè)大大的贊。如果沒(méi)有他前期99%的工作,我永遠(yuǎn)不會(huì)想到這個(gè)解決方案!
def generalize(ser, match_name, default=None, regex=False, case=False):
“”“ Search a series for text matches.
Based on code from https://www.metasnake.com/blog/pydata-assign.html
ser: pandas series to search
match_name: tuple containing text to search for and text to use for normalization
default: If no match, use this to provide a default value, otherwise use the original text
regex: Boolean to indicate if match_name contains a regular expression
case: Case sensitive search
Returns a pandas series with the matched value
”“”
seen = None
for match, name in match_name:
mask = ser.str.contains(match, case=case, regex=regex)
if seen is None:
seen = mask
else:
seen |= mask
ser = ser.where(~mask, name)
if default:
ser = ser.where(seen, default)
else:
ser = ser.where(seen, ser.values)
return ser
這個(gè)函數(shù)可以在pandas上調(diào)用,傳參是一個(gè)元組列表。第一個(gè)元組項(xiàng)是要搜索的值,第二個(gè)是要為匹配值填充的值。
以下是等效的模式列表:
store_patterns_2 = [(‘Hy-Vee’, ‘Hy-Vee’), (“Smokin‘ Joe’s”, “Smokin‘ Joe’s”),
(‘Central City’, ‘Central City’),
(‘Costco Wholesale’, ‘Costco Wholesale’),
(‘Walmart’, ‘Walmart’), (‘Wal-Mart’, ‘Walmart’),
(‘Fareway Stores’, ‘Fareway Stores’),
(“Casey‘s”, “Casey’s General Store”),
(“Sam‘s Club”, “Sam’s Club”), (‘Kum & Go’, ‘Kum & Go’),
(‘CVS’, ‘CVS Pharmacy’), (‘Walgreens’, ‘Walgreens’),
(‘Yesway’, ‘Yesway Store’), (‘Target Store’, ‘Target’),
(‘Quik Trip’, ‘Quik Trip’), (‘Circle K’, ‘Circle K’),
(‘Hometown Foods’, ‘Hometown Foods’),
(“Bucky‘s”, “Bucky’s Express”), (‘Kwik’, ‘Kwik Shop’)]
這個(gè)方案的一個(gè)好處是,與前面的store_patterns示例相比,維護(hù)這個(gè)列表要容易得多。
我對(duì)generalize函數(shù)做的另一個(gè)更改是,如果沒(méi)有提供默認(rèn)值,那么將保留原始值,而不是像上面那樣使用combine_first函數(shù)。最后,為了提高性能,我默認(rèn)關(guān)閉了正則匹配。
現(xiàn)在數(shù)據(jù)都設(shè)置好了,調(diào)用它很簡(jiǎn)單:
df[‘Store_Group_2’] = generalize(df[‘Store Name’], store_patterns_2)
性能如何?
15.5 s ± 409 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
比起上面它稍微有一點(diǎn)慢,但我認(rèn)為它是一個(gè)更優(yōu)雅的解決方案,如果我要做一個(gè)類似的文本清理工作,我會(huì)用這個(gè)方法。
這種方法的缺點(diǎn)是,它只能做字符串清洗。而np.select也可以應(yīng)用于數(shù)值,所以應(yīng)用范圍更廣。
關(guān)于數(shù)據(jù)類型
在pandas的最新版本中,有一個(gè)專用的字符串類型。我嘗試將Store Name轉(zhuǎn)換為該字符串類型,想看是否有性能優(yōu)化。結(jié)果沒(méi)有看到任何變化。不過(guò),未來(lái)有可能會(huì)有速度的提升,這點(diǎn)大家可以關(guān)注一下。
雖然string類型沒(méi)有什么區(qū)別,但是category類型在這個(gè)數(shù)據(jù)集上顯示了很大的潛力。有關(guān)category數(shù)據(jù)類型的詳細(xì)信息,可以參閱我的上一篇文章:https://pbpython.com/pandas_dtypes_cat.html。
我們可以使用astype將數(shù)據(jù)轉(zhuǎn)換為category類型:
df[‘Store Name’] = df[‘Store Name’].astype(‘category’)
然后我們跟之前那樣在運(yùn)行np.select的方法
df[‘Store_Group_3’] = np.select(store_criteria, store_values, None)
df[‘Store_Group_3’] = df[‘Store_Group_1’].combine_first(df[‘Store Name’])
786 ms ± 108 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
我們只做了一個(gè)簡(jiǎn)單的改動(dòng),運(yùn)行時(shí)間從13秒到不到1秒。太神了!效果這么明顯的原因其實(shí)很簡(jiǎn)單。當(dāng)pandas將列轉(zhuǎn)換為分組類型時(shí),它只會(huì)對(duì)每個(gè)唯一的文本值調(diào)用珍貴的str.contains()函數(shù)。因?yàn)檫@個(gè)數(shù)據(jù)集有很多重復(fù)的數(shù)據(jù),所以我們得到了巨大的性能提升。
讓我們看看這是否適用于我們的generalize函數(shù):
df[‘Store_Group_4’] = generalize(df[‘Store Name’], store_patterns_2)
不幸的是報(bào)錯(cuò)了:
ValueError: Cannot setitem on a Categorical with a new category, set the categories first
這個(gè)錯(cuò)誤讓我回憶起我過(guò)去處理分組數(shù)據(jù)時(shí)遇到的一些挑戰(zhàn)。當(dāng)你合并和關(guān)聯(lián)分組數(shù)據(jù)時(shí),你很容易遇到這些錯(cuò)誤。
我試圖找到一個(gè)比較好的方法來(lái)修改generage(),想讓它起作用,但目前還沒(méi)找到。如果有任何讀者能找到方法,可以聯(lián)系我獲得獎(jiǎng)金。這里,我們通過(guò)構(gòu)建一個(gè)查找表來(lái)復(fù)制Category方法。
查找表
正如我們通過(guò)分類方法了解到的,這個(gè)數(shù)據(jù)集有很多重復(fù)的數(shù)據(jù)。我們可以構(gòu)建一個(gè)查找表,每個(gè)字符串處理一次資源密集型函數(shù)。
為了說(shuō)明它是如何在字符串上工作的,我們將值從category轉(zhuǎn)換回字符串類型:
df[‘Store Name’] = df[‘Store Name’].astype(‘string’)
首先,我們構(gòu)建一個(gè)包含所有唯一值的lookup DataFrame并運(yùn)行g(shù)eneralize函數(shù):
lookup_df = pd.DataFrame()
lookup_df[‘Store Name’] = df[‘Store Name’].unique()
lookup_df[‘Store_Group_5’] = generalize(lookup_df[‘Store Name’], store_patterns_2)
我們可以把它合并到最終的DataFrame:
df = pd.merge(df, lookup_df, how=‘left’)
1.38 s ± 15.1 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
比起np.select使用分組數(shù)據(jù)的方法稍慢一些,但是代碼可讀性和易維護(hù)程度更高,性能和這兩者之間其實(shí)需要掌握一個(gè)平衡。
此外,中間的lookup_df可以很好的輸出給分析師共享,從而讓分析師幫助你清洗更多數(shù)據(jù)。這可能節(jié)省你幾小時(shí)的時(shí)間!
總結(jié)
根據(jù)我的經(jīng)驗(yàn),通過(guò)本文中概述的清洗示例,你可以了解很多關(guān)于底層數(shù)據(jù)的信息。
我推測(cè)你會(huì)在你的日常分析中發(fā)現(xiàn)很多需要進(jìn)行文本清理的案例,就像我在本文中展示的那樣。
下面是本文解決方案的簡(jiǎn)要總結(jié):
解決方案執(zhí)行時(shí)間注釋
np.select13s可用于非文本分析
generalize15s只支持文本
分組數(shù)據(jù)和np.select786ms在合并和關(guān)聯(lián)時(shí),分組數(shù)據(jù)可能會(huì)變得棘手
查找表和generalize1.3s查找表可以由其他人維護(hù)
對(duì)于一些數(shù)據(jù)集來(lái)說(shuō),性能不是問(wèn)題,所以你可以隨意選擇。
然而,隨著數(shù)據(jù)規(guī)模的增長(zhǎng)(想象一下對(duì)50個(gè)州的數(shù)據(jù)進(jìn)行分析),你需要了解如何高效地使用pandas進(jìn)行文本清洗。我建議你可以收藏這篇文章,當(dāng)你面對(duì)類似的問(wèn)題時(shí)可以再回來(lái)看看。
當(dāng)然,如果你有一些其他的建議,可能會(huì)對(duì)別人有用,可以寫(xiě)在評(píng)論里。如果你知道如何使我的generalize函數(shù)與分組數(shù)據(jù)一起工作,也記得告訴我。
編輯:lyn
-
數(shù)據(jù)分析
+關(guān)注
關(guān)注
2文章
1494瀏覽量
35745 -
python
+關(guān)注
關(guān)注
56文章
4848瀏覽量
89016
原文標(biāo)題:用 pandas 高效清洗文本數(shù)據(jù)
文章出處:【微信號(hào):DBDevs,微信公眾號(hào):數(shù)據(jù)分析與開(kāi)發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
NetApp助力對(duì)象存儲(chǔ)現(xiàn)代化,提升速度、可擴(kuò)展性和安全性
智能體AI面臨非結(jié)構(gòu)化數(shù)據(jù)難題:IBM推出解決方案
DDN攜手NVIDIA釋放非結(jié)構(gòu)化數(shù)據(jù)的AI價(jià)值
從零到一:如何利用非結(jié)構(gòu)化數(shù)據(jù)中臺(tái)快速部署AI解決方案
樹(shù)莓派AI套件:如何將混亂的數(shù)據(jù)變成有序的魔法

非結(jié)構(gòu)化數(shù)據(jù)中臺(tái):企業(yè)AI應(yīng)用安全落地的核心引擎
戴爾數(shù)據(jù)湖倉(cāng)助力企業(yè)數(shù)字化轉(zhuǎn)型
Minitab 數(shù)據(jù)清理與預(yù)處理技巧
AIGC與傳統(tǒng)內(nèi)容生成的區(qū)別 AIGC的優(yōu)勢(shì)和挑戰(zhàn)
bds 系統(tǒng)的優(yōu)缺點(diǎn) bds與傳統(tǒng)數(shù)據(jù)庫(kù)的區(qū)別
結(jié)構(gòu)化布線在AI數(shù)據(jù)中心的關(guān)鍵作用
使用ReMEmbR實(shí)現(xiàn)機(jī)器人推理與行動(dòng)能力

如何在文本字段中使用上標(biāo)、下標(biāo)及變量

評(píng)論