Hadoop综合大作业


本次作业要求来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

1.将爬虫大作业产生的csv文件上传到HDFS

2.对CSV文件进行预处理生成无标题文本文件

 

 

3.把hdfs中的文本文件最终导入到数据仓库Hive中

 

 

4.在Hive中查看并分析数据

 

 

5.用Hive对爬虫大作业产生的进行数据分析

 (1)查询总共有多少个评论者,结果分析知有401名评论者:

(2)查询评分推荐不重复的数据,结果分析得出只有11条评分推荐不重复的数据:

(3)查询前十名用户和赞同该用户评论的次数

(4)查询观看情况为“看过”和评论时间大于2018/11/27 18:33的用户个数,结果分析有197人:

 

(5)查询评分推荐为力荐的人数,结果分析有33人:

 

(6)查询赞同评论次数大于300的数据,结果分析得出只有14条数据:

 

(7)查询统计观看情况为看过的数据,结果分析得到200条:

 

(8)查询赞同评论次数并排序:

 

(9)查询统计观看情况并排序:

 

(10)查询用户名为“零点”的评论者:

 

总结:这次数据分析主要是对之前的爬虫大作业爬到《海王》的影评信息进行HDFS上传、 csv文件预处理生成无标题文本文件并导入数据仓库Hive再进行分析查询数据。爬取的数据不算太大,数据处理分析时间适宜,通过Hive的数据分析,我们可以清楚的知道有多少评论者、前十的用户数据等等。总的来说,这次数据分析还算顺利,希望能分析更大更繁杂的数据。

智能推荐

注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
© 2014-2019 ITdaan.com 粤ICP备14056181号  

赞助商广告