chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

完整案例!Python+SQL京東用戶行為分析

數(shù)據(jù)分析與開發(fā) ? 來源:數(shù)據(jù)分析與開發(fā) ? 2023-01-05 15:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1、項(xiàng)目背景

項(xiàng)目對(duì)京東電商運(yùn)營(yíng)數(shù)據(jù)集進(jìn)行指標(biāo)分析以了解用戶購(gòu)物行為特征,為運(yùn)營(yíng)決策提供支持建議。本文采用了MySQL和Python兩種代碼進(jìn)行指標(biāo)計(jì)算以適應(yīng)不同的數(shù)據(jù)分析開發(fā)環(huán)境。

2、數(shù)據(jù)集介紹

本數(shù)據(jù)集為京東競(jìng)賽數(shù)據(jù)集,數(shù)據(jù)已上傳后臺(tái),回復(fù)關(guān)鍵字:京東電商,即可獲的。詳細(xì)介紹請(qǐng)?jiān)L問鏈接:https://jdata.jd.com/html/detail.html?id=8 數(shù)據(jù)集共有五個(gè)文件,包含了'2018-02-01'至'2018-04-15'之間的用戶數(shù)據(jù),數(shù)據(jù)已進(jìn)行了脫敏處理,本文使用了其中的行為數(shù)據(jù)表,表中共有五個(gè)字段,各字段含義如下圖所示:

529be348-8cc9-11ed-bfe3-dac502259ad0.png

3、數(shù)據(jù)清洗


		

#導(dǎo)入python相關(guān)模塊 importnumpyasnp importpandasaspd importseabornassns importmatplotlib.pyplotasplt fromdatetimeimportdatetime plt.style.use('ggplot') %matplotlibinline #設(shè)置中文編碼和負(fù)號(hào)的正常顯示 plt.rcParams['font.sans-serif']=['SimHei'] plt.rcParams['axes.unicode_minus']=False


		#讀取數(shù)據(jù),數(shù)據(jù)集較大,如果計(jì)算機(jī)讀取內(nèi)存不夠用,可以嘗試kaggle比賽 #中的reduce_mem_usage函數(shù),附在文末,主要原理是把int64/float64 #類型的數(shù)值用更小的int(float)32/16/8來搞定 user_action=pd.read_csv('jdata_action.csv')

		#因數(shù)據(jù)集過大,本文截取'2018-03-30'至'2018-04-15'之間的數(shù)據(jù)完成本次分析 #注:僅4月份的數(shù)據(jù)包含加購(gòu)物車行為,即type == 5 user_data=user_action[(user_action['action_time']>'2018-03-30')&(user_action['action_time']'2018-04-15')]

		#存至本地備用 user_data.to_csv('user_data.csv',sep=',')

		#查看原始數(shù)據(jù)各字段類型 behavior=pd.read_csv('user_data.csv',index_col=0) behavior[:10]
			output

		
			user_idsku_idaction_timemodule_idtype 1714552982084412018-04-11154361906591 1814552983343182018-04-11155461906591 1914552982377552018-04-11151361906591 20145529864222018-04-11152561906591 2114552982685662018-04-11152661906591 2214552981159152018-04-11153561906591 2314552982082542018-04-11151661906591 2414552981772092018-04-14145966282541 251455298717932018-04-14142966282541 2614552981419502018-04-121553102072581

		
			behavior.info()
			output

		

'pandas.core.frame.DataFrame'> Int64Index:7540394entries,17to37214234 Datacolumns(total5columns): user_idint64 sku_idint64 action_timeobject module_idint64 typeint64 dtypes:int64(4),object(1) memoryusage:345.2+MB


		#查看缺失值 behavior.isnull().sum()
			output

		
			user_id0 sku_id0 action_time0 module_id0 type0 dtype:int64
			數(shù)據(jù)各列無缺失值。

		#原始數(shù)據(jù)中時(shí)間列action_time,時(shí)間和日期是在一起的,不方便分析,對(duì)action_time列進(jìn)行處理,拆分出日期和時(shí)間列,并添加星期字段求出每天對(duì)應(yīng) #的星期,方便后續(xù)按時(shí)間緯度對(duì)數(shù)據(jù)進(jìn)行分析 behavior['date']=pd.to_datetime(behavior['action_time']).dt.date#日期 behavior['hour']=pd.to_datetime(behavior['action_time']).dt.hour#時(shí)間 behavior['weekday']=pd.to_datetime(behavior['action_time']).dt.weekday_name#周

		#去除與分析無關(guān)的列 behavior=behavior.drop('module_id',axis=1)

		#將用戶行為標(biāo)簽由數(shù)字類型改為用字符表示 behavior_type={1:'pv',2:'pay',3:'fav',4:'comm',5:'cart'} behavior['type']=behavior['type'].apply(lambdax:behavior_type[x]) behavior.reset_index(drop=True,inplace=True)

		#查看處理好的數(shù)據(jù) behavior[:10]
			output

		

user_idsku_idaction_timetypedatehourweekday 014552982084412018-04-111543pv2018-04-1115Wednesday 114552983343182018-04-111554pv2018-04-1115Wednesday 214552982377552018-04-111513pv2018-04-1115Wednesday 3145529864222018-04-111525pv2018-04-1115Wednesday 414552982685662018-04-111526pv2018-04-1115Wednesday 514552981159152018-04-111535pv2018-04-1115Wednesday 614552982082542018-04-111516pv2018-04-1115Wednesday 714552981772092018-04-141459pv2018-04-1414Saturday 81455298717932018-04-141429pv2018-04-1414Saturday 914552981419502018-04-121553pv2018-04-1215Thursday

4、分析模型構(gòu)建指標(biāo)

1.流量指標(biāo)分析

pv、uv、消費(fèi)用戶數(shù)占比、消費(fèi)用戶總訪問量占比、消費(fèi)用戶人均訪問量、跳失率。

PV UV


		#總訪問量 pv=behavior[behavior['type']=='pv']['user_id'].count() #總訪客數(shù) uv=behavior['user_id'].nunique() #消費(fèi)用戶數(shù) user_pay=behavior[behavior['type']=='pay']['user_id'].unique() #日均訪問量 pv_per_day=pv/behavior['date'].nunique() #人均訪問量 pv_per_user=pv/uv #消費(fèi)用戶訪問量 pv_pay=behavior[behavior['user_id'].isin(user_pay)]['type'].value_counts().pv #消費(fèi)用戶數(shù)占比 user_pay_rate=len(user_pay)/uv #消費(fèi)用戶訪問量占比 pv_pay_rate=pv_pay/pv #消費(fèi)用戶人均訪問量 pv_per_buy_user=pv_pay/len(user_pay)

		#SQL SELECTcount(DISTINCTuser_id)UV, (SELECTcount(*)PVfrombehavior_sqlWHEREtype='pv')PV FROMbehavior_sql; SELECTcount(DISTINCTuser_id) FROMbehavior_sql WHERE WHEREtype='pay'; SELECTtype,COUNT(*)FROMbehavior_sql WHERE user_idIN (SELECTDISTINCTuser_id FROMbehavior_sql WHEREtype='pay') ANDtype='pv' GROUPBYtype;

		print('總訪問量為%i'%pv) print('總訪客數(shù)為%i'%uv) print('消費(fèi)用戶數(shù)為%i'%len(user_pay)) print('消費(fèi)用戶訪問量為%i'%pv_pay) print('日均訪問量為%.3f'%pv_per_day) print('人均訪問量為%.3f'%pv_per_user) print('消費(fèi)用戶人均訪問量為%.3f'%pv_per_buy_user) print('消費(fèi)用戶數(shù)占比為%.3f%%'%(user_pay_rate*100)) print('消費(fèi)用戶訪問量占比為%.3f%%'%(pv_pay_rate*100))
			output

		

總訪問量為6229177 總訪客數(shù)為728959 消費(fèi)用戶數(shù)為395874 消費(fèi)用戶訪問量為3918000 日均訪問量為389323.562 人均訪問量為8.545 消費(fèi)用戶人均訪問量為9.897 消費(fèi)用戶數(shù)占比為54.307% 消費(fèi)用戶訪問量占比為62.898%

消費(fèi)用戶人均訪問量和總訪問量占比都在平均值以上,有過消費(fèi)記錄的用戶更愿意在網(wǎng)站上花費(fèi)更多時(shí)間,說明網(wǎng)站的購(gòu)物體驗(yàn)尚可,老用戶對(duì)網(wǎng)站有一定依賴性,對(duì)沒有過消費(fèi)記錄的用戶要讓快速了解產(chǎn)品的使用方法和價(jià)值,加強(qiáng)用戶和平臺(tái)的黏連。

跳失率


		#跳失率:只進(jìn)行了一次操作就離開的用戶數(shù)/總用戶數(shù) attrition_rates=sum(behavior.groupby('user_id')['type'].count()==1)/(behavior['user_id'].nunique())

		#SQL SELECT (SELECTCOUNT(*) FROM(SELECTuser_id FROMbehavior_sqlGROUPBYuser_id HAVINGCOUNT(type)=1)A)/ (SELECTCOUNT(DISTINCTuser_id)UVFROMbehavior_sql)attrition_rates;

		print('跳失率為%.3f%%'%(attrition_rates*100))
			output

		
			跳失率為22.585%
			整個(gè)計(jì)算周期內(nèi)跳失率為22.585%,還是有較多的用戶僅做了單次操作就離開了頁(yè)面,需要從首頁(yè)頁(yè)面布局以及產(chǎn)品用戶體驗(yàn)等方面加以改善,提高產(chǎn)品吸引力。

2、用戶消費(fèi)頻次分析


		#單個(gè)用戶消費(fèi)總次數(shù) total_buy_count=(behavior[behavior['type']=='pay'].groupby(['user_id'])['type'].count() .to_frame().rename(columns={'type':'total'})) #消費(fèi)次數(shù)前10客戶 topbuyer10=total_buy_count.sort_values(by='total',ascending=False)[:10] #復(fù)購(gòu)率 re_buy_rate=total_buy_count[total_buy_count>=2].count()/total_buy_count.count()

		#SQL #消費(fèi)次數(shù)前10客戶 SELECTuser_id,COUNT(type)total_buy_count FROMbehavior_sql WHEREtype='pay' GROUPBYuser_id ORDERBYCOUNT(type)DESC LIMIT10 #復(fù)購(gòu)率 CREATVIEWv_buy_count ASSELECTuser_id,COUNT(type)total_buy_count FROMbehavior_sql WHEREtype='pay' GROUPBYuser_id; SELECTCONCAT(ROUND((SUM(CASEWHENtotal_buy_count>=2THEN1ELSE0END)/ SUM(CASEWHENtotal_buy_count>0THEN1ELSE0END))*100,2),'%')ASre_buy_rate FROMv_buy_count;

		
			topbuyer10.reset_index().style.bar(color='skyblue',subset=['total'])
			output

52aee010-8cc9-11ed-bfe3-dac502259ad0.png


		#單個(gè)用戶消費(fèi)總次數(shù)可視化 tbc_box=total_buy_count.reset_index() fig,ax=plt.subplots(figsize=[16,6]) ax.set_yscale("log") sns.countplot(x=tbc_box['total'],data=tbc_box,palette='Set1') forpinax.patches: ax.annotate('{:.2f}%'.format(100*p.get_height()/len(tbc_box['total'])),(p.get_x()-0.1,p.get_height())) plt.title('用戶消費(fèi)總次數(shù)')
			output

52be949c-8cc9-11ed-bfe3-dac502259ad0.png

整個(gè)計(jì)算周期內(nèi),最高購(gòu)物次數(shù)為133次,最低為1次,大部分用戶的購(gòu)物次數(shù)在6次以下,可適當(dāng)增加推廣,完善購(gòu)物體驗(yàn),提高用戶消費(fèi)次數(shù)。購(gòu)物次數(shù)前10用戶為1187177、502169等,應(yīng)提高其滿意度,增大留存率。

		print('復(fù)購(gòu)率為%.3f%%'%(re_buy_rate*100))
			output

		
			復(fù)購(gòu)率為13.419%復(fù)購(gòu)率較低,應(yīng)加強(qiáng)老用戶召回機(jī)制,提升購(gòu)物體驗(yàn),也可能因數(shù)據(jù)量較少,統(tǒng)計(jì)周期之內(nèi)的數(shù)據(jù) 無法解釋完整的購(gòu)物周期,從而得出結(jié)論有誤。

3、用戶行為在時(shí)間緯度的分布

日消費(fèi)次數(shù)、日活躍人數(shù)、日消費(fèi)人數(shù)、日消費(fèi)人數(shù)占比、消費(fèi)用戶日人均消費(fèi)次數(shù)

		#日活躍人數(shù)(有一次操作即視為活躍) daily_active_user=behavior.groupby('date')['user_id'].nunique() #日消費(fèi)人數(shù) daily_buy_user=behavior[behavior['type']=='pay'].groupby('date')['user_id'].nunique() #日消費(fèi)人數(shù)占比 proportion_of_buyer=daily_buy_user/daily_active_user #日消費(fèi)總次數(shù) daily_buy_count=behavior[behavior['type']=='pay'].groupby('date')['type'].count() #消費(fèi)用戶日人均消費(fèi)次數(shù) consumption_per_buyer=daily_buy_count/daily_buy_user

		#SQL #日消費(fèi)總次數(shù) SELECTdate,COUNT(type)pay_dailyFROMbehavior_sql WHEREtype='pay' GROUPBYdate; #日活躍人數(shù) SELECTdate,COUNT(DISTINCTuser_id)uv_dailyFROMbehavior_sql GROUPBYdate; #日消費(fèi)人數(shù) SELECTdate,COUNT(DISTINCTuser_id)user_pay_dailyFROMbehavior_sql WHEREtype='pay' GROUPBYdate; #日消費(fèi)人數(shù)占比 SELECT (SELECTdate,COUNT(DISTINCTuser_id)user_pay_dailyFROMbehavior_sql WHEREtype='pay' GROUPBYdate)/ (SELECTdate,COUNT(DISTINCTuser_id)uv_dailyFROMbehavior_sql GROUPBYdate) #日人均消費(fèi)次數(shù) SELECT (SELECTdate,COUNT(type)pay_dailyFROMbehavior_sql WHEREtype='pay' GROUPBYdate)/ (SELECTdate,COUNT(DISTINCTuser_id)uv_dailyFROMbehavior_sql GROUPBYdate)

		#日消費(fèi)人數(shù)占比可視化 #柱狀圖數(shù)據(jù) pob_bar=(pd.merge(daily_active_user,daily_buy_user,on='date').reset_index() .rename(columns={'user_id_x':'日活躍人數(shù)','user_id_y':'日消費(fèi)人數(shù)'}) .set_index('date').stack().reset_index().rename(columns={'level_1':'Variable',0:'Value'})) #線圖數(shù)據(jù) pob_line=proportion_of_buyer.reset_index().rename(columns={'user_id':'Rate'}) fig1=plt.figure(figsize=[16,6]) ax1=fig1.add_subplot(111) ax2=ax1.twinx() sns.barplot(x='date',y='Value',hue='Variable',data=pob_bar,ax=ax1,alpha=0.8,palette='husl') ax1.legend().set_title('') ax1.legend().remove() sns.pointplot(pob_line['date'],pob_line['Rate'],ax=ax2,markers='D',linestyles='--',color='teal') x=list(range(0,16)) fora,binzip(x,pob_line['Rate']): plt.text(a+0.1,b+0.001,'%.2f%%'%(b*100),ha='center',va='bottom',fontsize=12) fig1.legend(loc='uppercenter',ncol=2) plt.title('日消費(fèi)人數(shù)占比')
			output

52ce7308-8cc9-11ed-bfe3-dac502259ad0.png

日活躍人數(shù)與日消費(fèi)人數(shù)無明顯波動(dòng),日消費(fèi)人數(shù)占比均在20%以上。

		#消費(fèi)用戶日人均消費(fèi)次數(shù)可視化 #柱狀圖數(shù)據(jù) cpb_bar=(daily_buy_count.reset_index().rename(columns={'type':'Num'})) #線圖數(shù)據(jù) cpb_line=(consumption_per_buyer.reset_index().rename(columns={0:'Frequency'})) fig2=plt.figure(figsize=[16,6]) ax3=fig2.add_subplot(111) ax4=ax3.twinx() sns.barplot(x='date',y='Num',data=cpb_bar,ax=ax3,alpha=0.8,palette='pastel') sns.pointplot(cpb_line['date'],cpb_line['Frequency'],ax=ax4,markers='D',linestyles='--',color='teal') x=list(range(0,16)) fora,binzip(x,cpb_line['Frequency']): plt.text(a+0.1,b+0.001,'%.2f'%b,ha='center',va='bottom',fontsize=12) plt.title('消費(fèi)用戶日人均消費(fèi)次數(shù)')
			output

52dbd46c-8cc9-11ed-bfe3-dac502259ad0.png

日消費(fèi)人數(shù)在25000以上,日人均消費(fèi)次數(shù)大于1次。

		
			dau3_df=behavior.groupby(['date','user_id'])['type'].count().reset_index() dau3_df=dau3_df[dau3_df['type']>=3]

		#每日高活躍用戶數(shù)(每日操作數(shù)大于3次) dau3_num=dau3_df.groupby('date')['user_id'].nunique()

		#SQL SELECTdate,COUNT(DISTINCTuser_id) FROM (SELECTdate,user_id,COUNT(type) FROMbehavior_sql GROUPBYdate,user_id HAVINGCOUNT(type)>=3)dau3 GROUPBYdate;

		
			fig,ax=plt.subplots(figsize=[16,6]) sns.pointplot(dau3_num.index,dau3_num.values,markers='D',linestyles='--',color='teal') x=list(range(0,16)) fora,binzip(x,dau3_num.values): plt.text(a+0.1,b+300,'%i'%b,ha='center',va='bottom',fontsize=14) plt.title('每日高活躍用戶數(shù)')
			output

52eb5e5a-8cc9-11ed-bfe3-dac502259ad0.png

每日高活躍用戶數(shù)在大部分4萬以上,2018-04-04之前數(shù)量比較平穩(wěn),之后數(shù)量一直攀升,8號(hào)9號(hào)達(dá)到最高,隨后下降,推測(cè)數(shù)據(jù)波動(dòng)應(yīng)為營(yíng)銷活動(dòng)產(chǎn)生的。

		#高活躍用戶累計(jì)活躍天數(shù)分布 dau3_cumsum=dau3_df.groupby('user_id')['date'].count()

		#SQL SELECTuser_id,COUNT(date) FROM (SELECTdate,user_id,COUNT(type) FROMbehavior_sql GROUPBYdate,user_id HAVINGCOUNT(type)>=3)dau3 GROUPBYuser_id;

		
			fig,ax=plt.subplots(figsize=[16,6]) ax.set_yscale("log") sns.countplot(dau3_cumsum.values,palette='Set1') forpinax.patches: ax.annotate('{:.2f}%'.format(100*p.get_height()/len(dau3_cumsum.values)),(p.get_x()+0.2,p.get_height()+100)) plt.title('高活躍用戶累計(jì)活躍天數(shù)分布')
			output

52f9f91a-8cc9-11ed-bfe3-dac502259ad0.png

統(tǒng)計(jì)周期內(nèi),大部分高活躍用戶累計(jì)活躍天數(shù)在六天以下,但也存在高達(dá)十六天的超級(jí)活躍用戶數(shù)量,對(duì)累計(jì)天數(shù)較高的用戶要推出連續(xù)登錄獎(jiǎng)勵(lì)等繼續(xù)維持其對(duì)平臺(tái)的黏性,對(duì)累計(jì)天數(shù)較低的用戶要適當(dāng)進(jìn)行推送活動(dòng)消息等對(duì)其進(jìn)行召回。

		#每日瀏覽量 pv_daily=behavior[behavior['type']=='pv'].groupby('date')['user_id'].count() #每日訪客數(shù) uv_daily=behavior.groupby('date')['user_id'].nunique()

		#SQL #每日瀏覽量 SELECTdate,COUNT(type)pv_dailyFROMbehavior_sql WHEREtype='pv' GROUPBYdate; #每日訪客數(shù) SELECTdate,COUNT(DISTINCTuser_id)uv_dailyFROMbehavior_sql GROUPBYdate;

		#每日瀏覽量可視化 fig,ax=plt.subplots(figsize=[16,6]) sns.pointplot(pv_daily.index,pv_daily.values,markers='D',linestyles='--',color='dodgerblue') x=list(range(0,16)) fora,binzip(x,pv_daily.values): plt.text(a+0.1,b+2000,'%i'%b,ha='center',va='bottom',fontsize=14) plt.title('每日瀏覽量')
			output

5308bad6-8cc9-11ed-bfe3-dac502259ad0.png


		#每日訪客數(shù)可視化 fig,ax=plt.subplots(figsize=[16,6]) sns.pointplot(uv_daily.index,uv_daily.values,markers='H',linestyles='--',color='m') x=list(range(0,16)) fora,binzip(x,uv_daily.values): plt.text(a+0.1,b+500,'%i'%b,ha='center',va='bottom',fontsize=14) plt.title('每日訪客數(shù)')
			output

5315fb1a-8cc9-11ed-bfe3-dac502259ad0.png

瀏覽量和訪客數(shù)每日變化趨勢(shì)大致相同,2018-04-04日前后用戶數(shù)量變化波動(dòng)較大,4月4日為清明節(jié)假日前一天,各數(shù)據(jù)量在當(dāng)天均有明顯下降,但之后逐步回升,推測(cè)應(yīng)為節(jié)假日營(yíng)銷活動(dòng)推廣拉新活動(dòng)帶來的影響。

		#每時(shí)瀏覽量 pv_hourly=behavior[behavior['type']=='pv'].groupby('hour')['user_id'].count() #每時(shí)訪客數(shù) uv_hourly=behavior.groupby('hour')['user_id'].nunique()

		#SQL #每時(shí)瀏覽量 SELECTdate,COUNT(type)pv_dailyFROMbehavior_sql WHEREtype='pv' GROUPBYhour; #每時(shí)訪客數(shù) SELECTdate,COUNT(DISTINCTuser_id)uv_dailyFROMbehavior_sql GROUPBYhour;

		#瀏覽量隨小時(shí)變化可視化 fig,ax=plt.subplots(figsize=[16,6]) sns.pointplot(pv_hourly.index,pv_hourly.values,markers='H',linestyles='--',color='dodgerblue') fora,binzip(pv_hourly.index,pv_hourly.values): plt.text(a,b+10000,'%i'%b,ha='center',va='bottom',fontsize=12) plt.title('瀏覽量隨小時(shí)變化')
			output

53293770-8cc9-11ed-bfe3-dac502259ad0.png


		#訪客數(shù)隨小時(shí)變化可視化 fig,ax=plt.subplots(figsize=[16,6]) sns.pointplot(uv_hourly.index,uv_hourly.values,markers='H',linestyles='--',color='m') fora,binzip(uv_hourly.index,uv_hourly.values): plt.text(a,b+1000,'%i'%b,ha='center',va='bottom',fontsize=12) plt.title('訪客數(shù)隨小時(shí)變化')
			output

5336b134-8cc9-11ed-bfe3-dac502259ad0.png

瀏覽量及訪客數(shù)隨小時(shí)變化趨勢(shì)一致,在凌晨1點(diǎn)到凌晨5點(diǎn)之間,大部分用戶正在休息,整體活躍度較低。凌晨5點(diǎn)到10點(diǎn)用戶開始起床工作,活躍度逐漸增加,之后趨于平穩(wěn),下午6點(diǎn)之后大部分人恢復(fù)空閑,瀏覽量及訪客數(shù)迎來了第二波攀升,在晚上8點(diǎn)中到達(dá)高峰,隨后逐漸下降??梢钥紤]在上午9點(diǎn)及晚上8點(diǎn)增大商品推廣力度,加大營(yíng)銷活動(dòng)投入,可取的較好的收益,1點(diǎn)到5點(diǎn)之間適合做系統(tǒng)維護(hù)。

		#用戶各操作隨小時(shí)變化 type_detail_hour=pd.pivot_table(columns='type',index='hour',data=behavior,aggfunc=np.size,values='user_id') #用戶各操作隨星期變化 type_detail_weekday=pd.pivot_table(columns='type',index='weekday',data=behavior,aggfunc=np.size,values='user_id') type_detail_weekday=type_detail_weekday.reindex(['Monday','Tuesday','Wednesday','Thursday','Friday','Saturday','Sunday'])

		

#SQL #用戶各操作隨小時(shí)變化 SELECThour, SUM(CASEWHENbehavior='pv'THEN1ELSE0END)AS'pv', SUM(CASEWHENbehavior='fav'THEN1ELSE0END)AS'fav', SUM(CASEWHENbehavior='cart'THEN1ELSE0END)AS'cart', SUM(CASEWHENbehavior='pay'THEN1ELSE0END)AS'pay' FROMbehavior_sql GROUPBYhour ORDERBYhour #用戶各操作隨星期變化 SELECTweekday, SUM(CASEWHENbehavior='pv'THEN1ELSE0END)AS'pv', SUM(CASEWHENbehavior='fav'THEN1ELSE0END)AS'fav', SUM(CASEWHENbehavior='cart'THEN1ELSE0END)AS'cart', SUM(CASEWHENbehavior='pay'THEN1ELSE0END)AS'pay' FROMbehavior_sql GROUPBYweekday ORDERBYweekday


		
			tdh_line=type_detail_hour.stack().reset_index().rename(columns={0:'Value'}) tdw_line=type_detail_weekday.stack().reset_index().rename(columns={0:'Value'}) tdh_line=tdh_line[~(tdh_line['type']=='pv')] tdw_line=tdw_line[~(tdw_line['type']=='pv')]

		#用戶操作隨小時(shí)變化可視化 fig,ax=plt.subplots(figsize=[16,6]) sns.pointplot(x='hour',y='Value',hue='type',data=tdh_line,linestyles='--') plt.title('用戶操作隨小時(shí)變化')
			output

534cdc3e-8cc9-11ed-bfe3-dac502259ad0.png

用戶操作隨小時(shí)變化規(guī)律與PV、UV隨小時(shí)規(guī)律相似,與用戶作息規(guī)律相關(guān),加入購(gòu)物車和付款兩條曲線貼合比比較緊密,說明大部分用戶習(xí)慣加入購(gòu)物車后直接購(gòu)買。關(guān)注數(shù)相對(duì)較少,可以根據(jù)用戶購(gòu)物車內(nèi)商品進(jìn)行精準(zhǔn)推送。評(píng)論數(shù)也相對(duì)較少,說明大部分用戶不是很熱衷對(duì)購(gòu)物體驗(yàn)進(jìn)行反饋,可以設(shè)置一些獎(jiǎng)勵(lì)制度提高用戶評(píng)論數(shù),增大用用戶粘性

		#用戶操作隨星期變化可視化 fig,ax=plt.subplots(figsize=[16,6]) sns.pointplot(x='weekday',y='Value',hue='type',data=tdw_line[~(tdw_line['type']=='pv')],linestyles='--') plt.title('用戶操作隨星期變化')
			output

535dcd96-8cc9-11ed-bfe3-dac502259ad0.png

周一到周四工作日期間,用戶操作隨星期變化比較平穩(wěn),周五至周六進(jìn)入休息日,用戶操作明顯增多,周日又恢復(fù)正常。

4、用戶行為轉(zhuǎn)化漏斗


		#導(dǎo)入相關(guān)包 frompyechartsimportoptionsasopts frompyecharts.chartsimportFunnel importmath

		
			behavior['action_time']=pd.to_datetime(behavior['action_time'],format='%Y-%m-%d%H:%M:%S')

		#用戶整體行為分布 type_dis=behavior['type'].value_counts().reset_index() type_dis['rate']=round((type_dis['type']/type_dis['type'].sum()),3)

		
			type_dis.style.bar(color='skyblue',subset=['rate'])
			output

536ccac6-8cc9-11ed-bfe3-dac502259ad0.png

用戶整體行為中,有82.6%行為為瀏覽,實(shí)際支付操作僅占6.4,除此之外,用戶評(píng)論及收藏的行為占比也較低,應(yīng)當(dāng)增強(qiáng)網(wǎng)站有用戶之間的互動(dòng),提高評(píng)論數(shù)量和收藏率。

		
			df_con=behavior[['user_id','sku_id','action_time','type']]

		
			df_pv=df_con[df_con['type']=='pv'] df_fav=df_con[df_con['type']=='fav'] df_cart=df_con[df_con['type']=='cart'] df_pay=df_con[df_con['type']=='pay'] df_pv_uid=df_con[df_con['type']=='pv']['user_id'].unique() df_fav_uid=df_con[df_con['type']=='fav']['user_id'].unique() df_cart_uid=df_con[df_con['type']=='cart']['user_id'].unique() df_pay_uid=df_con[df_con['type']=='pay']['user_id'].unique()

pv - buy


		
			fav_cart_list=set(df_fav_uid)|set(df_cart_uid) pv_pay_df=pd.merge(left=df_pv,right=df_pay,how='inner',on=['user_id','sku_id'],suffixes=('_pv','_pay')) pv_pay_df=pv_pay_df[(~pv_pay_df['user_id'].isin(fav_cart_list))&(pv_pay_df['action_time_pv']'action_time_pay'])]

		
			uv=behavior['user_id'].nunique() pv_pay_num=pv_pay_df['user_id'].nunique() pv_pay_data=pd.DataFrame({'type':['瀏覽','付款'],'num':[uv,pv_pay_num]}) pv_pay_data['conversion_rates']=(round((pv_pay_data['num']/pv_pay_data['num'][0]),4)*100)

		
			attr1=list(pv_pay_data.type) values1=list(pv_pay_data.conversion_rates) data1=[[attr1[i],values1[i]]foriinrange(len(attr1))]

		#用戶行為轉(zhuǎn)化漏斗可視化 pv_pay=(Funnel(opts.InitOpts(width="600px",height="300px")) .add( series_name="", data_pair=data1, gap=2, tooltip_opts=opts.TooltipOpts(trigger="item",formatter=":{c}%"), label_opts=opts.LabelOpts(is_show=True,position="inside"), itemstyle_opts=opts.ItemStyleOpts(border_color="#fff",border_width=1) ) .set_global_opts(title_opts=opts.TitleOpts(title="用戶行為轉(zhuǎn)化漏斗圖")) ) pv_pay.render_notebook()
			output

53826f2a-8cc9-11ed-bfe3-dac502259ad0.png

pv - cart - pay


		
			pv_cart_df=pd.merge(left=df_pv,right=df_cart,how='inner',on=['user_id','sku_id'],suffixes=('_pv','_cart')) pv_cart_df=pv_cart_df[pv_cart_df['action_time_pv']'action_time_cart']] pv_cart_df=pv_cart_df[~pv_cart_df['user_id'].isin(df_fav_uid)] pv_cart_pay_df=pd.merge(left=pv_cart_df,right=df_pay,how='inner',on=['user_id','sku_id']) pv_cart_pay_df=pv_cart_pay_df[pv_cart_pay_df['action_time_cart']'action_time']]

		
			uv=behavior['user_id'].nunique() pv_cart_num=pv_cart_df['user_id'].nunique() pv_cart_pay_num=pv_cart_pay_df['user_id'].nunique() pv_cart_pay_data=pd.DataFrame({'type':['瀏覽','加購(gòu)','付款'],'num':[uv,pv_cart_num,pv_cart_pay_num]}) pv_cart_pay_data['conversion_rates']=(round((pv_cart_pay_data['num']/pv_cart_pay_data['num'][0]),4)*100)

		
			attr2=list(pv_cart_pay_data.type) values2=list(pv_cart_pay_data.conversion_rates) data2=[[attr2[i],values2[i]]foriinrange(len(attr2))]

		#用戶行為轉(zhuǎn)化漏斗可視化 pv_cart_buy=(Funnel(opts.InitOpts(width="600px",height="300px")) .add( series_name="", data_pair=data2, gap=2, tooltip_opts=opts.TooltipOpts(trigger="item",formatter=":{c}%"), label_opts=opts.LabelOpts(is_show=True,position="inside"), itemstyle_opts=opts.ItemStyleOpts(border_color="#fff",border_width=1) ) .set_global_opts(title_opts=opts.TitleOpts(title="用戶行為轉(zhuǎn)化漏斗圖")) ) pv_cart_buy.render_notebook()
			output

539de8c2-8cc9-11ed-bfe3-dac502259ad0.png

pv - fav - pay


		
			pv_fav_df=pd.merge(left=df_pv,right=df_fav,how='inner',on=['user_id','sku_id'],suffixes=('_pv','_fav')) pv_fav_df=pv_fav_df[pv_fav_df['action_time_pv']'action_time_fav']] pv_fav_df=pv_fav_df[~pv_fav_df['user_id'].isin(df_cart_uid)] pv_fav_pay_df=pd.merge(left=pv_fav_df,right=df_pay,how='inner',on=['user_id','sku_id']) pv_fav_pay_df=pv_fav_pay_df[pv_fav_pay_df['action_time_fav']'action_time']]

		
			uv=behavior['user_id'].nunique() pv_fav_num=pv_fav_df['user_id'].nunique() pv_fav_pay_num=pv_fav_pay_df['user_id'].nunique() pv_fav_pay_data=pd.DataFrame({'type':['瀏覽','收藏','付款'],'num':[uv,pv_fav_num,pv_fav_pay_num]}) pv_fav_pay_data['conversion_rates']=(round((pv_fav_pay_data['num']/pv_fav_pay_data['num'][0]),4)*100)

		
			attr3=list(pv_fav_pay_data.type) values3=list(pv_fav_pay_data.conversion_rates) data3=[[attr3[i],values3[i]]foriinrange(len(attr3))]

		#用戶行為轉(zhuǎn)化漏斗可視化 pv_fav_buy=(Funnel(opts.InitOpts(width="600px",height="300px")) .add( series_name="", data_pair=data3, gap=2, tooltip_opts=opts.TooltipOpts(trigger="item",formatter=":{c}%"), label_opts=opts.LabelOpts(is_show=True,position="inside"), itemstyle_opts=opts.ItemStyleOpts(border_color="#fff",border_width=1) ) .set_global_opts(title_opts=opts.TitleOpts(title="用戶行為轉(zhuǎn)化漏斗圖")) ) pv_fav_buy.render_notebook()
			output

53b36d6e-8cc9-11ed-bfe3-dac502259ad0.png

pv - fav - cart - pay


		
			pv_fav=pd.merge(left=df_pv,right=df_fav,how='inner',on=['user_id','sku_id'],suffixes=('_pv','_fav')) pv_fav=pv_fav[pv_fav['action_time_pv']'action_time_fav']] pv_fav_cart=pd.merge(left=pv_fav,right=df_cart,how='inner',on=['user_id','sku_id']) pv_fav_cart=pv_fav_cart[pv_fav_cart['action_time_fav']'action_time']] pv_fav_cart_pay=pd.merge(left=pv_fav_cart,right=df_pay,how='inner',on=['user_id','sku_id'],suffixes=('_cart','_pay')) pv_fav_cart_pay=pv_fav_cart_pay[pv_fav_cart_pay['action_time_cart']'action_time_pay']]

		
			uv=behavior['user_id'].nunique() pv_fav_n=pv_fav['user_id'].nunique() pv_fav_cart_n=pv_fav_cart['user_id'].nunique() pv_fav_cart_pay_n=pv_fav_cart_pay['user_id'].nunique() pv_fav_cart_pay_data=pd.DataFrame({'type':['瀏覽','收藏','加購(gòu)','付款'],'num':[uv,pv_fav_n,pv_fav_cart_n,pv_fav_cart_pay_n]}) pv_fav_cart_pay_data['conversion_rates']=(round((pv_fav_cart_pay_data['num']/pv_fav_cart_pay_data['num'][0]),4)*100)

		
			attr4=list(pv_fav_cart_pay_data.type) values4=list(pv_fav_cart_pay_data.conversion_rates) data4=[[attr4[i],values4[i]]foriinrange(len(attr4))]

		#用戶行為轉(zhuǎn)化漏斗可視化 pv_fav_buy=(Funnel(opts.InitOpts(width="600px",height="300px")) .add( series_name="", data_pair=data4, gap=2, tooltip_opts=opts.TooltipOpts(trigger="item",formatter=":{c}%"), label_opts=opts.LabelOpts(is_show=True,position="inside"), itemstyle_opts=opts.ItemStyleOpts(border_color="#fff",border_width=1) ) .set_global_opts(title_opts=opts.TitleOpts(title="用戶行為轉(zhuǎn)化漏斗圖")) ) pv_fav_buy.render_notebook()
			output

53c12ac6-8cc9-11ed-bfe3-dac502259ad0.png

不同路徑用戶消費(fèi)時(shí)間間隔分析:

pv - cart - pay


		
			pcp_interval=pv_cart_pay_df.groupby(['user_id','sku_id']).apply(lambdax:(x.action_time.min()-x.action_time_cart.min())).reset_index() pcp_interval['interval']=pcp_interval[0].apply(lambdax:x.seconds)/3600 pcp_interval['interval']=pcp_interval['interval'].apply(lambdax:math.ceil(x))

		
			fig,ax=plt.subplots(figsize=[16,6]) sns.countplot(pcp_interval['interval'],palette='Set1') forpinax.patches: ax.annotate('{:.2f}%'.format(100*p.get_height()/len(pcp_interval['interval'])),(p.get_x()+0.1,p.get_height()+100)) ax.set_yscale("log") plt.title('pv-cart-pay路徑用戶消費(fèi)時(shí)間間隔')
			output

53d05d70-8cc9-11ed-bfe3-dac502259ad0.png

pv - fav - pay


		
			pfp_interval=pv_fav_pay_df.groupby(['user_id','sku_id']).apply(lambdax:(x.action_time.min()-x.action_time_fav.min())).reset_index() pfp_interval['interval']=pfp_interval[0].apply(lambdax:x.seconds)/3600 pfp_interval['interval']=pfp_interval['interval'].apply(lambdax:math.ceil(x))

		
			fig,ax=plt.subplots(figsize=[16,6]) sns.countplot(pfp_interval['interval'],palette='Set1') forpinax.patches: ax.annotate('{:.2f}%'.format(100*p.get_height()/len(pfp_interval['interval'])),(p.get_x()+0.1,p.get_height()+10)) ax.set_yscale("log") plt.title('pv-fav-pay路徑用戶消費(fèi)時(shí)間間隔')
			output

53e2fb42-8cc9-11ed-bfe3-dac502259ad0.png

兩種路徑下大部分用戶均在4小時(shí)內(nèi)完成了支付,大部分用戶的購(gòu)物意向很明確,也側(cè)面說明了網(wǎng)站的商品分類布局和購(gòu)物結(jié)算方式比較合理。

		#SQL #漏斗圖 SELECTtype,COUNT(DISTINCTuser_id)user_num FROMbehavior_sql GROUPBYtype ORDERBYCOUNT(DISTINCTuser_id)DESC SELECTCOUNT(DISTINCTb.user_id)ASpv_fav_num,COUNT(DISTINCTc.user_id)ASpv_fav_pay_num FROM ((SELECTDISTINCTuser_id,sku_id,action_timeFROMusersWHEREtype='pv')ASa LEFTJOIN (SELECTDISTINCTuser_id,sku_id,action_timeFROMusersWHEREtype='fav' ANDuser_idNOTIN (SELECTDISTINCTuser_id FROMbehavior_sql WHEREtype='cart'))ASb ONa.user_id=b.user_idANDa.sku_id=b.sku_idANDa.action_time<=?b.action_time LEFT?JOIN (SELECT?DISTINCT?user_id,sku_id,item_category,times_new?FROM?users?WHERE?behavior_type='pay')ASc ONb.user_id=c.user_idANDb.sku_id=c.sku_idANDANDb.action_time<=?c.action_time);
			比較四種不同的轉(zhuǎn)化方式,最有效的轉(zhuǎn)化路徑為瀏覽直接付款轉(zhuǎn)化率為21.46%,其次為瀏覽加購(gòu)付款,轉(zhuǎn)化率為12.47%,可以發(fā)現(xiàn)隨著結(jié)算方式越來越復(fù)雜轉(zhuǎn)化率越來越低。
			加購(gòu)的方式比收藏購(gòu)買的方式轉(zhuǎn)化率要高,推其原因?yàn)橘?gòu)物車接口進(jìn)入方便且可以做不同商家比價(jià)用,而收藏則需要更繁瑣的操作才可以查看到商品,因此轉(zhuǎn)化率較低。
			可以優(yōu)化商品搜索功能,提高商品搜索準(zhǔn)確度、易用性,減少用戶搜索時(shí)間。
			根據(jù)用戶喜好在首頁(yè)進(jìn)行商品推薦,優(yōu)化重排商品詳情展示頁(yè),提高顧客下單欲望,提供一鍵購(gòu)物等簡(jiǎn)化購(gòu)物步驟的功能。
			客服也可以留意加購(gòu)及關(guān)注用戶,適時(shí)推出優(yōu)惠福利及時(shí)解答用戶問題,引導(dǎo)用戶購(gòu)買以進(jìn)一步提高轉(zhuǎn)化率。
			對(duì)于用戶消費(fèi)時(shí)間間隔,可以通過限時(shí)領(lǐng)券購(gòu)買、限時(shí)特惠價(jià)格等進(jìn)一步縮短用戶付款時(shí)間,提高訂單量。

5、用戶留存率分析


		#留存率 first_day=datetime.date(datetime.strptime('2018-03-30','%Y-%m-%d')) fifth_day=datetime.date(datetime.strptime('2018-04-03','%Y-%m-%d')) tenth_day=datetime.date(datetime.strptime('2018-04-08','%Y-%m-%d')) fifteenth_day=datetime.date(datetime.strptime('2018-04-13','%Y-%m-%d')) #第一天新用戶數(shù) user_num_first=behavior[behavior['date']==first_day]['user_id'].to_frame() #第五天留存用戶數(shù) user_num_fifth=behavior[behavior['date']==fifth_day]['user_id'].to_frame() #第十留存用戶數(shù) user_num_tenth=behavior[behavior['date']==tenth_day]['user_id'].to_frame() #第十五天留存用戶數(shù) user_num_fifteenth=behavior[behavior['date']==fifteenth_day]['user_id'].to_frame()

		#第五天留存率 fifth_day_retention_rate=round((pd.merge(user_num_first,user_num_fifth).nunique()) /(user_num_first.nunique()),4).user_id #第十天留存率 tenth_day_retention_rate=round((pd.merge(user_num_first,user_num_tenth).nunique()) /(user_num_first.nunique()),4).user_id #第十五天留存率 fifteenth_day_retention_rate=round((pd.merge(user_num_first,user_num_fifteenth).nunique()) /(user_num_first.nunique()),4).user_id

		#留存率可視化 fig,ax=plt.subplots(figsize=[16,6]) sns.barplot(x='n日后留存率',y='Rate',data=retention_rate, palette='Set1') x=list(range(0,3)) fora,binzip(x,retention_rate['Rate']): plt.text(a,b+0.001,'%.2f%%'%(b*100),ha='center',va='bottom',fontsize=12) plt.title('用戶留存率')
			output

53f924d0-8cc9-11ed-bfe3-dac502259ad0.png

留存率反應(yīng)了產(chǎn)品質(zhì)量和保留用戶的能力,按照Facebook平臺(tái)流傳出留存率“40–20–10”規(guī)則(規(guī)則中的數(shù)字表示的是次日留存率、第7日留存率和第30日留存率),統(tǒng)計(jì)周期內(nèi)第五日留存率為22.81%,第15日留存率為17.44%。 反映出平臺(tái)的用戶依賴性較高,也因平臺(tái)發(fā)展已經(jīng)到達(dá)穩(wěn)定階段,用戶保留率不會(huì)發(fā)生較大波動(dòng),數(shù)據(jù)量足夠的情況下可以以年為單位,計(jì)算按月的留存率。要合理安排消息推送,推出簽到有獎(jiǎng)等機(jī)制提高用戶粘性,進(jìn)一步提高留存率。

		#SQL #n日后留存率=(注冊(cè)后的n日后還登錄的用戶數(shù))/第一天新增總用戶數(shù) createtableretention_rateasselectcount(distinctuser_id)asuser_num_firstfrombehavior_sql wheredate='2018-03-30'; altertableretention_rateaddcolumnuser_num_fifthINTEGER; updateretention_ratesetuser_num_fifth= (selectcount(distinctuser_id)frombehavior_sql wheredate='2018-04-03'anduser_idin(SELECTuser_idFROMbehavior_sql WHEREdate='2018-03-30')); altertableretention_rateaddcolumnuser_num_tenthINTEGER; updateretention_ratesetuser_num_tenth= (selectcount(distinctuser_id)frombehavior_sql wheredate='2018-04-08'anduser_idin(SELECTuser_idFROMbehavior_sql WHEREdate='2018-03-30')); altertableretention_rateaddcolumnuser_num_fifteenthINTEGER; updateretention_ratesetuser_num_fifteenth= (selectcount(distinctuser_id)frombehavior_sql wheredate='2018-04-13'anduser_idin(SELECTuser_idFROMbehavior_sql WHEREdate='2018-03-30')); SELECTCONCAT(ROUND(100*user_num_fifth/user_num_first,2),'%')ASfifth_day_retention_rate, CONCAT(ROUND(100*user_num_tenth/user_num_first,2),'%')AStenth_day_retention_rate, CONCAT(ROUND(100*user_num_fifteenth/user_num_first,2),'%')ASfifteenth_day_retention_rate fromretention_rate;

6、商品銷量分析


		#商品總數(shù) behavior['sku_id'].nunique()
			output

		
			239007

		#商品被購(gòu)前產(chǎn)生平均操作次數(shù) sku_df=behavior[behavior['sku_id'].isin(behavior[behavior['type']=='pay']['sku_id'].unique())].groupby('sku_id')['type'].value_counts().unstack(fill_value=0) sku_df['total']=sku_df.sum(axis=1) sku_df['avg_beha']=round((sku_df['total']/sku_df['pay']),2) fig,ax=plt.subplots(figsize=[8,6]) sns.scatterplot(x='avg_beha',y='pay',data=sku_df,palette='Set1') ax.set_xscale("log") ax.set_yscale("log") plt.xlabel('平均操作次數(shù)') plt.ylabel('銷量')
			output

541285a6-8cc9-11ed-bfe3-dac502259ad0.png

  • 左下角操作少購(gòu)買少,屬于冷門購(gòu)買頻率較低的產(chǎn)品。
  • 左上角操作少購(gòu)買多,屬于快消類產(chǎn)品,可選擇品牌少,少數(shù)品牌壟斷的行業(yè)。
  • 右下角操作多購(gòu)買少,品牌多,但是購(gòu)買頻率低,應(yīng)為貴重物品類。
  • 右上角操作多購(gòu)買多,大眾品牌,可選多,被購(gòu)買頻次高。

		#商品銷量排行 sku_num=(behavior[behavior['type']=='pay'].groupby('sku_id')['type'].count().to_frame() .rename(columns={'type':'total'}).reset_index()) #銷量大于1000的商品 topsku=sku_num[sku_num['total']>1000].sort_values(by='total',ascending=False) #單個(gè)用戶共購(gòu)買商品種數(shù) sku_num_per_user=(behavior[behavior['type']=='pay']).groupby(['user_id'])['sku_id'].nunique() topsku.set_index('sku_id').style.bar(color='skyblue',subset=['total'])
			output

545e53a0-8cc9-11ed-bfe3-dac502259ad0.png

在計(jì)算周期內(nèi)訂單數(shù)均突破1000以上的共有13款產(chǎn)品,其中152092這款產(chǎn)品訂單數(shù)最高為1736. 推出商品組合有優(yōu)惠等,提高單個(gè)用戶購(gòu)買產(chǎn)品種數(shù)。

		#SQL #sku銷量排行 SELECTsku_id,COUNT(type)sku_numFROMbehavior_sql WHEREtype='pay' GROUPBYsku_id HAVINGsku_num>1000 ORDERBYsku_numDESC;

7、RFM用戶分層


		#RFM #由于缺少M(fèi)(金額)列,僅通過R(最近一次購(gòu)買時(shí)間)和F(消費(fèi)頻率)對(duì)用戶進(jìn)行價(jià)值分析 buy_group=behavior[behavior['type']=='pay'].groupby('user_id')['date'] #將2018-04-13作為每個(gè)用戶最后一次購(gòu)買時(shí)間來處理 final_day=datetime.date(datetime.strptime('2018-04-14','%Y-%m-%d')) #最近一次購(gòu)物時(shí)間 recent_buy_time=buy_group.apply(lambdax:final_day-x.max()) recent_buy_time=recent_buy_time.reset_index().rename(columns={'date':'recent'}) recent_buy_time['recent']=recent_buy_time['recent'].map(lambdax:x.days) #近十五天內(nèi)購(gòu)物頻率 buy_freq=buy_group.count().reset_index().rename(columns={'date':'freq'}) RFM=pd.merge(recent_buy_time,buy_freq,on='user_id')

		
			RFM['R']=pd.qcut(RFM.recent,2,labels=['1','0']) #天數(shù)小標(biāo)簽為1天數(shù)大標(biāo)簽為0 RFM['F']=pd.qcut(RFM.freq.rank(method='first'),2,labels=['0','1']) #頻率大標(biāo)簽為1頻率小標(biāo)簽為0 RFM['RFM']=RFM['R'].astype(int).map(str)+RFM['F'].astype(int).map(str) dict_n={'01':'重要保持客戶', '11':'重要價(jià)值客戶', '10':'重要挽留客戶', '00':'一般發(fā)展客戶'} #用戶標(biāo)簽 RFM['用戶等級(jí)']=RFM['RFM'].map(dict_n) RFM_pie=RFM['用戶等級(jí)'].value_counts().reset_index() RFM_pie['Rate']=RFM_pie['用戶等級(jí)']/RFM_pie['用戶等級(jí)'].sum() fig,ax=plt.subplots(figsize=[16,6]) plt.pie(RFM_pie['Rate'],labels=RFM_pie['index'],startangle=90,autopct="%1.2f%%", counterclock=False,colors=['yellowgreen','gold','lightskyblue','lightcoral']) plt.axis('square') plt.title('RFM用戶分層')
			output

546d6f52-8cc9-11ed-bfe3-dac502259ad0.png

不同類型用戶占比差異較小,應(yīng)提升重要價(jià)值各戶的占比,減小一般發(fā)展客戶的占比。 通過RFM模型對(duì)用戶價(jià)值進(jìn)行分類,對(duì)不同價(jià)值用戶應(yīng)采取不同的運(yùn)營(yíng)策略:
  • 對(duì)于重要價(jià)值客戶來說,要提高該部分用戶的滿意度,服務(wù)升級(jí),發(fā)放特別福利,增大該部分用戶留存率,在做運(yùn)營(yíng)推廣時(shí)也要給與特別關(guān)注,避免引起用戶反感。
  • 對(duì)于重要保持客戶,他們購(gòu)物頻次較高,但最近一段時(shí)間沒有消費(fèi),可以推送相關(guān)其他商品,發(fā)放優(yōu)惠卷、贈(zèng)品和促銷信息等,喚回該部分用戶。
  • 對(duì)于重要挽留客戶,他們最近消費(fèi)過,但購(gòu)物頻次較低,可以通過問卷有禮的方式找出其對(duì)平臺(tái)的不滿,提升購(gòu)物體驗(yàn),增大用戶粘性。
  • 對(duì)于一般發(fā)展客戶,做到定期發(fā)送郵件或短信喚回,努力將其轉(zhuǎn)化為重要保持客戶或重要挽留客戶。

		#SQL #RFM CREATEVIEWRF_tableAS SELECTuser_id,DATEDIFF('2018-04-14',MAX(date))ASR_days, COUNT(*)ASF_count FROMbehavior_sqlWHEREtype='pay'GROUPBYuser_id; SELECTAVG(R_days),AVG(F_count) FROMRF_table createviewRF_layeras SELECTuser_id,(CASEWHENR_days"重要價(jià)值客戶" WHENR=1andF=0THEN"重要挽留客戶" WHENR=0andF=1THEN"重要保持客戶" WHENR=0andF=0THEN"一般發(fā)展客戶"ELSE0END)as用戶價(jià)值 FROMRF_layer; SELECT*FROMcustomer_value;

5、總結(jié)

1.可以增加渠道推廣投入,進(jìn)行精準(zhǔn)人群推廣,推出新用戶福利,吸引新用戶,推出團(tuán)購(gòu)、分享有禮等活動(dòng)促進(jìn)老帶新,推出促銷活動(dòng)刺激老用戶,提高訪客數(shù)和瀏覽量。提高產(chǎn)品質(zhì)量,提高商品詳情頁(yè)對(duì)用戶的吸引力,降低跳失率。 2.根據(jù)用戶操作隨時(shí)間變化規(guī)律來開展?fàn)I銷活動(dòng),使活動(dòng)更容易觸達(dá)用戶,在用戶訪問高峰期多推送用戶感興趣商品。 3.復(fù)購(gòu)率較低,說明用戶對(duì)平臺(tái)購(gòu)物體驗(yàn)不滿,需要找出用戶槽點(diǎn),提高用戶購(gòu)物滿意度,優(yōu)化商品推送機(jī)制,對(duì)老用戶給予特別福利,提高他們所享受權(quán)益。轉(zhuǎn)化率也偏低,需要改善平臺(tái)搜索機(jī)制降低提高搜索效率,優(yōu)化購(gòu)物路徑降低購(gòu)物復(fù)雜度,改善商品詳情信息展示方式便于信息的獲取。 4.留存率相對(duì)穩(wěn)定,為進(jìn)一步提高留存率,可以定期推出秒殺活動(dòng),推出專享優(yōu)惠券,推出簽到有禮環(huán)節(jié),增加用戶瀏覽時(shí)長(zhǎng)和深度,提高用戶粘性。分析用戶對(duì)產(chǎn)品的真實(shí)使用感受與評(píng)價(jià),提高用戶忠誠(chéng)度。 5.通過RFM對(duì)用戶進(jìn)行分層,將用戶從一個(gè)整體拆分成特征明顯的群體,有針對(duì)性的采取不同的營(yíng)銷方法進(jìn)行精準(zhǔn)化營(yíng)銷,用有限的公司資源優(yōu)先服務(wù)于公司最重要的客戶。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • SQL
    SQL
    +關(guān)注

    關(guān)注

    1

    文章

    783

    瀏覽量

    45163
  • python
    +關(guān)注

    關(guān)注

    56

    文章

    4827

    瀏覽量

    86778
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1224

    瀏覽量

    25453

原文標(biāo)題:完整案例!Python + SQL 京東用戶行為分析

文章出處:【微信號(hào):DBDevs,微信公眾號(hào):數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    自媒體推廣實(shí)時(shí)監(jiān)控從服務(wù)器帶寬到用戶行為解決方法

    自媒體推廣的實(shí)時(shí)監(jiān)控需要從底層基礎(chǔ)設(shè)施到前端用戶行為進(jìn)行全鏈路覆蓋,確保推廣活動(dòng)的穩(wěn)定性和效果可追蹤。以下是系統(tǒng)性解決方案,主機(jī)推薦小編為您整理發(fā)布自媒體推廣實(shí)時(shí)監(jiān)控從服務(wù)器帶寬到用戶行為
    的頭像 發(fā)表于 04-09 10:47 ?258次閱讀

    如何一眼定位SQL的代碼來源:一款SQL染色標(biāo)記的簡(jiǎn)易MyBatis插件

    作者:京東物流 郭忠強(qiáng) 導(dǎo)語 本文分析了后端研發(fā)和運(yùn)維在日常工作中所面臨的線上SQL定位排查痛點(diǎn),基于姓名貼的靈感,設(shè)計(jì)和開發(fā)了一款SQL染色標(biāo)記的MyBatis插件。該插件輕量高效,
    的頭像 發(fā)表于 03-05 11:36 ?419次閱讀
    如何一眼定位<b class='flag-5'>SQL</b>的代碼來源:一款<b class='flag-5'>SQL</b>染色標(biāo)記的簡(jiǎn)易MyBatis插件

    Devart: dbForge Compare Bundle for SQL Server—比較SQL數(shù)據(jù)庫(kù)最簡(jiǎn)單、最準(zhǔn)確的方法

    ? dbForge Compare Bundle For SQL Server:包含兩個(gè)工具,可幫助您節(jié)省用于手動(dòng)數(shù)據(jù)庫(kù)比較的 70% 的時(shí)間 dbForge數(shù)據(jù)比較 幫助檢測(cè)和分析實(shí)時(shí)SQL數(shù)據(jù)庫(kù)
    的頭像 發(fā)表于 01-17 11:35 ?565次閱讀

    dbForge Studio For SQL Server:用于有效開發(fā)的最佳SQL Server集成開發(fā)環(huán)境

    dbForge Studio For SQL Server:用于有效開發(fā)的最佳SQL Server集成開發(fā)環(huán)境 SQL編碼助手 SQL代碼分析
    的頭像 發(fā)表于 01-16 10:36 ?743次閱讀

    淺談SQL優(yōu)化小技巧

    作者:京東零售 王軍 回顧:MySQL的執(zhí)行過程回顧 MySQL的執(zhí)行過程,幫助 介紹 如何進(jìn)行sql優(yōu)化。 (1)客戶端發(fā)送一條查詢語句到服務(wù)器; (2)服務(wù)器先查詢緩存,如果命中緩存,則立即返回
    的頭像 發(fā)表于 12-25 09:59 ?867次閱讀

    如何使用SQL進(jìn)行數(shù)據(jù)分析

    使用SQL進(jìn)行數(shù)據(jù)分析是一個(gè)強(qiáng)大且靈活的過程,它涉及從數(shù)據(jù)庫(kù)中提取、清洗、轉(zhuǎn)換和聚合數(shù)據(jù),以便進(jìn)行進(jìn)一步的分析和洞察。 1. 數(shù)據(jù)提取(Data Extraction) 選擇數(shù)據(jù)源 :確定你要
    的頭像 發(fā)表于 11-19 10:26 ?1384次閱讀

    SQL與NoSQL的區(qū)別

    在信息技術(shù)領(lǐng)域,數(shù)據(jù)庫(kù)是存儲(chǔ)和管理數(shù)據(jù)的核心組件。隨著互聯(lián)網(wǎng)的發(fā)展和大數(shù)據(jù)時(shí)代的到來,對(duì)數(shù)據(jù)庫(kù)的需求也在不斷變化。SQL和NoSQL作為兩種主流的數(shù)據(jù)庫(kù)管理系統(tǒng),各自有著獨(dú)特的優(yōu)勢(shì)和應(yīng)用場(chǎng)
    的頭像 發(fā)表于 11-19 10:15 ?611次閱讀

    使用Python進(jìn)行圖像處理

    下面是一個(gè)關(guān)于使用Python在幾行代碼中分析城市輪廓線的快速教程。
    的頭像 發(fā)表于 11-07 10:14 ?591次閱讀
    使用<b class='flag-5'>Python</b>進(jìn)行圖像處理

    IP 地址大數(shù)據(jù)分析如何進(jìn)行網(wǎng)絡(luò)優(yōu)化?

    。 2.用戶行為分析 大數(shù)據(jù)分析可以對(duì)用戶的網(wǎng)絡(luò)行為進(jìn)行分析
    的頭像 發(fā)表于 10-09 15:32 ?578次閱讀
    IP 地址大數(shù)據(jù)<b class='flag-5'>分析</b>如何進(jìn)行網(wǎng)絡(luò)優(yōu)化?

    大數(shù)據(jù)從業(yè)者必知必會(huì)的Hive SQL調(diào)優(yōu)技巧

    大數(shù)據(jù)從業(yè)者必知必會(huì)的Hive SQL調(diào)優(yōu)技巧 摘要 :在大數(shù)據(jù)領(lǐng)域中,Hive SQL被廣泛應(yīng)用于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)查詢和分析。然而,由于數(shù)據(jù)量龐大和復(fù)雜的查詢需求,Hive SQL查詢
    的頭像 發(fā)表于 09-24 13:30 ?701次閱讀

    高速PCB信號(hào)完整分析及應(yīng)用

    電子發(fā)燒友網(wǎng)站提供《高速PCB信號(hào)完整分析及應(yīng)用.pdf》資料免費(fèi)下載
    發(fā)表于 09-21 14:14 ?6次下載

    高速PCB信號(hào)完整性設(shè)計(jì)與分析

    高速PCB信號(hào)完整性設(shè)計(jì)與分析
    發(fā)表于 09-21 11:51 ?4次下載

    行為分析智能監(jiān)測(cè)攝像機(jī)

    行為分析智能監(jiān)測(cè)攝像機(jī)是一種結(jié)合了人工智能和機(jī)器學(xué)習(xí)技術(shù)的智能設(shè)備,能夠?qū)崟r(shí)監(jiān)測(cè)目標(biāo)區(qū)域內(nèi)的行為動(dòng)態(tài),并通過分析和識(shí)別行為特征來提供安全監(jiān)控
    的頭像 發(fā)表于 08-21 10:14 ?694次閱讀
    <b class='flag-5'>行為</b><b class='flag-5'>分析</b>智能監(jiān)測(cè)攝像機(jī)

    信號(hào)完整性與電源完整性-電源完整分析

    電子發(fā)燒友網(wǎng)站提供《信號(hào)完整性與電源完整性-電源完整分析.pdf》資料免費(fèi)下載
    發(fā)表于 08-12 14:31 ?92次下載

    IP 地址在 SQL 注入攻擊中的作用及防范策略

    SQL 注入是通過將惡意的 SQL 代碼插入到輸入?yún)?shù)中,欺騙應(yīng)用程序執(zhí)行這些惡意代碼,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)庫(kù)的非法操作。例如,在一個(gè)登錄表單中,如果輸入的用戶名被直接拼接到 SQL 查詢
    的頭像 發(fā)表于 08-05 17:36 ?644次閱讀