前言
隨著春節(jié)腳步的臨近,想必各位讀者都已經(jīng)開(kāi)始規(guī)劃幸福的春節(jié)長(zhǎng)假該如何度過(guò)。闔家團(tuán)聚,探親訪友,與好久沒(méi)見(jiàn)的好基友一起談天說(shuō)地,懟天懟地,想想都是讓人感到幸福。
除此之外,每年的春節(jié)檔電影都會(huì)如約而至與大家見(jiàn)面,春節(jié)檔誕生了許多的經(jīng)典電影,2019的春節(jié)檔電影也是佳片云集,被稱作“史上最強(qiáng)春節(jié)檔”,今天我們就帶大家一起用數(shù)據(jù)去解讀其中最值得看的影片。
數(shù)據(jù)獲取
本次我們的數(shù)據(jù)主要來(lái)源于貓眼,一部分是貓眼的實(shí)時(shí)預(yù)售票房數(shù)據(jù):
這部分?jǐn)?shù)據(jù)可以通過(guò)selenium去獲取,代碼如下:
driver = webdriver.Chrome()driver.maximize_window() driver.close() driver.switch_to_window(driver.window_handles[0]) url = 'https://piaofang.maoyan.com/dashboard?date=2019-02-05'js='window.open("'+url+'")'driver.execute_script(js)driver.close() driver.switch_to_window(driver.window_handles[0])
另一部分?jǐn)?shù)據(jù)則來(lái)源于貓眼的觀眾評(píng)論,由于電影目前都還沒(méi)有上映,觀眾評(píng)論給出的分?jǐn)?shù),表示了其對(duì)電影的期待值。需要注意的是,有許多觀眾在評(píng)論中并沒(méi)有給出評(píng)分,會(huì)直接顯示為0,在后續(xù)計(jì)算時(shí)需要排除,數(shù)據(jù)如下:
這部分?jǐn)?shù)據(jù)的獲取方法可以參照之前《3天破9億!上萬(wàn)條評(píng)論解讀《西虹市首富》是否值得一看》,我們就直接省略爬取代碼。
預(yù)售票房
衡量一個(gè)電影關(guān)注度的重要方法就是去看首日的預(yù)售情況,我們此次選取八部春節(jié)檔最主要的影片進(jìn)行對(duì)比,代碼如下:
p<-ggplot(data[order(data$sale,decreasing = T),][1:8,], ? ? ? ? ?aes(x=reorder(name,sale),y=sale,fill=name))+ ?geom_bar(stat='identity',width = 0.5)+ ?geom_image(aes(x=name,y=0,image=image),size=0.08)+ ?geom_text(aes(x=name,y=2500,label=label_sale),size = 7,col='black',fontface='bold')+ ?ggtitle('春節(jié)檔電影預(yù)售票房排名(萬(wàn))') + theme_economist()+ scale_fill_tableau()+ ? ? ? ? ? ? ? ? ?theme(axis.text.x = element_blank(), ? ? ? ?axis.text.y = element_blank(), ? ? ? ?plot.title = element_text(hjust=0.5,size=30), ? ? ? ?panel.grid = element_blank(), ? ? ? ?legend.position = 'none', ? ? ? ?panel.background = element_blank(), ? ? ? ?axis.title ?= element_blank(), ? ? ? ?axis.line = element_blank(), ? ? ? ?axis.ticks = element_blank() ?)+coord_flip()+ylim(0,6500)ggsave("春節(jié)檔上映前預(yù)售排名.png", p, width = 10, height = 16)
看一下最終的結(jié)果:

目前預(yù)售排名前三位的都是喜劇題材,看來(lái)在春節(jié)的時(shí)候大家還是更加希望能夠放松自己,看一下輕松題材的影評(píng)。但是預(yù)售票房并不能完全覺(jué)得最終的票房走勢(shì),可以參考之前上映后口碑崩塌的《地球最后的夜晚》和《愛(ài)情公寓》。
排名前兩位的影片都有沈騰的參與,看來(lái)目前沈騰的票房認(rèn)可度還是不錯(cuò)的,希望兩部影片最終都會(huì)取得不錯(cuò)的結(jié)果。
從預(yù)售票房上看,《廉政風(fēng)云》和《神探蒲松齡》都有比較大的撲街危險(xiǎn),考慮到港片近期略顯低迷的表現(xiàn),希望這兩部影片能夠帶來(lái)一些驚喜。
上映前口碑
另外我們也看一下上映之前,觀眾對(duì)于影片的整體評(píng)價(jià)情況,這也會(huì)在一定程度上體現(xiàn)觀眾的期待值:
代碼如下:
p<-ggplot(data[order(data$score,decreasing = T),][1:8,], ? ? ? ? ?aes(x=reorder(name,score),y=score,fill=name))+ ?geom_bar(stat='identity',width = 0.5)+ ?geom_image(aes(x=name,y=0,image=image),size=0.08)+ ?geom_text(aes(x=name,y=2,label=label_score),size = 7,col='black',fontface='bold')+ ?ggtitle('春節(jié)檔電影上映前評(píng)價(jià)') + theme_wsj()+ scale_fill_tableau()+ ? ? ? ? ? ? ? ? ?theme(axis.text.x = element_blank(), ? ? ? ?axis.text.y = element_blank(), ? ? ? ?plot.title = element_text(hjust=0.5,size=30), ? ? ? ?panel.grid = element_blank(), ? ? ? ?legend.position = 'none', ? ? ? ?panel.background = element_blank(), ? ? ? ?axis.title ?= element_blank(), ? ? ? ?axis.line = element_blank(), ? ? ? ?axis.ticks = element_blank() ?)+coord_flip()+ylim(0,5)ggsave("春節(jié)檔上映前評(píng)分排名.png", p, width = 8, height = 12)
看一下最終的結(jié)果:

《熊出沒(méi)》出人意料的在評(píng)分中排在首位,這也一定程度上提高了作者對(duì)這部影片的期待值,雖然以作者的年齡,應(yīng)該是不適合去看這部影片,《小豬佩奇》憑借此前的超強(qiáng)營(yíng)銷,成功引起了大家的主要,然而最終表現(xiàn)如何,還是需要上映后接受觀眾的檢驗(yàn)。
同時(shí)我們看到成龍大哥領(lǐng)銜的《神探蒲松齡》在評(píng)分上要落后于其他影片,看來(lái)大家對(duì)于這類題材的影片持保留意見(jiàn)比較多一些,我們也期待上映后口碑是否能夠?qū)崿F(xiàn)翻盤(pán)。
影片看點(diǎn)
我們最后通過(guò)評(píng)論去挖掘上映前大家比較關(guān)注的點(diǎn),主要采用jieba分詞,需要注意的是,我們需要在分詞前增加一些自定義詞典,比如“黃景瑜”,如果不加這個(gè)自定義詞典,就會(huì)被分為“黃景”,之后我們會(huì)根據(jù)詞語(yǔ)出現(xiàn)頻率篩選出重要的關(guān)鍵詞:
def key_words(df): comment_str = ' '.join(df) words_list = [] jieba.load_userdict('spring_film_dict.txt') word_generator = jieba.cut(comment_str) # 返回的是一個(gè)迭代 f.close() # stopwords文本中詞的格式是'一詞一行' for word in word_generator: words_list.append(word) words_list = Counter([k for k in words_list if len(k)>1]) return list(dict(words_list.most_common(30)).keys())
最后我們?cè)诿總€(gè)影片中選取了五個(gè)能夠體現(xiàn)其看點(diǎn)的詞語(yǔ),并進(jìn)行可視化:
我們選取一些比較有趣的看點(diǎn)組合,進(jìn)行一下深刻(suixing)解讀:
《神探蒲松齡》:大家都在期待成龍大哥的表演,雖然有很多人提前給其打上了“爛片”的標(biāo)簽,但是依然期待影片口碑的翻盤(pán)。同時(shí)大家也會(huì)認(rèn)真關(guān)注影片特效,不知是否會(huì)致敬此前5毛錢(qián)“duang”的特效。
《飛馳人生》《瘋狂的外星人》:感覺(jué)沈騰大有承包今年春節(jié)檔的態(tài)勢(shì),預(yù)售排名前兩位影片中,觀眾最關(guān)注的看點(diǎn)都是沈騰,期待沈騰春節(jié)霸屏同時(shí)也能收獲不錯(cuò)的口碑。沈騰又是和外星人打交道,又是要體驗(yàn)飛馳的人生,喜歡沈騰的觀眾在春節(jié)檔可以大飽眼福了。
《小豬佩奇過(guò)大年》:一部適合孩子觀看的影片,也是一部宣傳片獲得極大討論度的影片,希望不要步此前《地球最后的夜晚》上映后口碑崩盤(pán)的后塵。
《新喜劇之王》:顯然大部分觀眾對(duì)這部影片的期待來(lái)自于星爺,有了此前經(jīng)典版的《喜劇之王》珠玉在前,《新喜劇之王》不可避免地會(huì)被哪來(lái)與原作對(duì)比,我們期待能夠簡(jiǎn)直有一部經(jīng)典的影片出現(xiàn)。
最后提前祝愿大家新年愉快,體會(huì)與家人團(tuán)聚的幸福同時(shí)也能看到精彩的影片!同時(shí)大家也可以在留言區(qū)與我們互動(dòng),分享自己春節(jié)檔會(huì)選擇去觀看的影片。
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7318瀏覽量
94128 -
代碼
+關(guān)注
關(guān)注
30文章
4947瀏覽量
73291
原文標(biāo)題:數(shù)據(jù)解讀2019春節(jié)檔哪部電影最值得看?
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
STM8S105K4 PD口的外部中斷和串口接收中斷一起用會(huì)有問(wèn)題嗎?
keil不同版本,有的文件在新版本上報(bào)錯(cuò)怎么辦?要裝兩個(gè)版本一起用?
printf()串口輸出與DMA串口輸出為什么不能一起用
請(qǐng)問(wèn)RTC與LPUART一起用會(huì)出問(wèn)題嗎
求解,W5500加MQTT使用時(shí)能不能和ADC外設(shè)一起用?
ARM DS也是和DSTREAM調(diào)試器一起用嗎
帶大家一起體驗(yàn)一下Vivado的ECO流程
電池配組工作應(yīng)該如何高效進(jìn)行,不同廠家電池能一起用嗎
Stanley A Meyer VIC子板驅(qū)動(dòng)器與Variac EEC電子提取和扼流圈一起用

帶大家一起用數(shù)據(jù)去解讀其中最值得看的影片
評(píng)論