微博评论数据爬取以及分析
#不许你没看过の系列!#
吹爆最近的国漫《哪吒之魔童降世》
从故事情节、角色设计到特效处理
都非常牛!!!
#连海报都好好看啊#
上映首周票房已经达到14.1亿!
打破国漫票房记录!
豆瓣评分达到8.6分!
14亿票房背后,到底是谁成为《哪吒》票房主力军呢?
今天小编用八爪鱼数据采集爬取4794条《哪吒之魔童降世》微博评论,带你从中《哪吒之魔童降世》解析观影人群画像。
本文您将获得
1、微博采集思路解析
2、微博评论数据的可视化分析思路
3、采集福利集锦(文末)
一、#哪吒之魔童降世#微博采集思路解析
1、首先明确观影人群画像需要哪些数据字段?
采集字段:用户名、性别、年龄、头像、城市地区、院校、属性标签、简介以及它的微博评论内容、发布时间、发布来源。
2、打开八爪鱼,根据目标字段制作规则并运行
我已制作好的八爪鱼微博采集规则
运行规则后八爪鱼所采集到的数据
下面说下规则制作思路。
第1步 制作COOKIE登录微博
因为微博必须要登录才能看得到更多的数据,所以登录是我们要做的第一步。
第2步 输入#哪吒之魔童降世#关键词获得搜索结果
第3步 将所有微博全文展开并制作微博采集循环
展开全文循环
微博采集循环
微博内容采集循环
第4步 制作微博用户信息采集循环
第5步 手动执行排错
规则制作后,手动一个个点击,查看每个步骤看能否正常展示并成功采集,更详细的排错思路可以查看:排错脑图
第6步 运行规则收获数据
二、#哪吒之魔童降世#评论数据可视化分析思路
1、明确观影人群画像分析维度
包括:性别、年龄、地区、发布来源、星座、标签属性、微博内容词频分析等维度。
2、清洗数据
清洗数据是非常关键的一环,数据的质量直接决定分析结果的质量。
原有字段名称及内容
清洗过后的字段名称及内容
在原有的数据上,我根据一些背景数据和分析需要,做了颗粒度更细的划分,同时通过统一表述(原意不变),让数据可以更好地归类和呈现。
3、数据可视化分析
1)单一维度:如年龄、手机品牌
微博评论用户年龄分布
根据评论数据看,95后占比46.98%,是观影的核心人群。90+95占了72.21%,可见微博现在基本上已经是90后的天下,而95后是动漫题材作品的强劲消费群体。
微博评论用户发布手机/渠道划分
手机品牌iPhone占33.3%、华为16.15%、VIVO、小米、OPPO紧随其后。
iPhone以一单挑所有国产品牌手机,拔得头筹。看来90后中也有相当部分是忠实的“果粉”。
2)交叉维度分析:性别+年龄
微博评论用户性别+年龄划分
可以初步得出结论,在微博发布用户中:
a)女性用户95后成为主要观影人群,男性用户年龄分布比较平均。
b)影视作品想要引发舆论话题,首先得带动女性用户的情绪。从数据中看出,女性用户的评论数是男性的2.41倍。在表达欲、情绪分享、态度表达上,女性更为活跃,也更容易影响周边的人。
3)交叉维度分析:转赞数+发布手机/渠道
微博评论用户转赞数+发布手机/渠道
a)在发布来源中,iPhone、微博客户端(应用程序)、华为手机最多,紧接是OPPO、VIVO、小米;说明绝大部分用户都愿意在手机上发布微博,而不是PC。
b)#超话#是微博的话题专区,用户评论可带上超话话题。在上映首周,由《哪吒》直接创建或关联的超话多达102个。最热门的超话有#藕饼超话#、#哪咤之魔童降世超话#、#我为电影狂超话#、#张碧晨超话#、#插画超话#等。
4)交叉维度分析:性别+星座
微博评论用户性别+星座
所以动漫和星座可以产生什么关联?
数据已将已经异常值筛出(如系统默认出生1月1日),发现摩羯座还是位列Top1和Top2?摩羯座的盆友,你们大多都是动漫爱好者嘛?
5)背景数据+数据分析:城市划分+微博数据
微博评论用户城市划分
数据呈阶梯分布,一线城市、新一线城市、二线城市依然是票房的主力军,制片投资人爸爸们,拿下这些城市的影院排期就看你们的了。
微博评论用户城市分布
6)微博内容词频分析
微博评论词频分布
词语的大小根据关键词出现的次数变化。筛去电影名称后,频次最多的词可以分为以下几类:
a)角色关系:敖丙、藕饼、李靖、申公豹、太乙、cp、锁死、朋友、形象、设定、红蓝
b)剧情:我命由我不由天、成见
c)电影:票房、国产、国漫、大圣、打破、动画电影、特效、导演、饺子、10亿元、冠军、配音、
d)周边效应:妆容、壁纸
e)评价:好看、喜欢、去看、超级好看、燃、太好、推荐、期待、哭、二刷、吹爆、丑、帅、啊啊啊、泪
转载联系:bzyskieer002(微信)