Hadoop综合大作业 - 开发者知识库

搜索本文相关内容

Hadoop综合大作业

本文转载自 wytai 查看原文 2019/06/20 35 oop/ 综合/ 作业/ hadoop

本次作业要求来源于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

1.将爬虫大作业产生的csv文件上传到HDFS

2.对CSV文件进行预处理生成无标题文本文件

3.把hdfs中的文本文件最终导入到数据仓库Hive中

4.在Hive中查看并分析数据

5.用Hive对爬虫大作业产生的进行数据分析

（1）查询总共有多少个评论者，结果分析知有401名评论者：

（2）查询评分推荐不重复的数据，结果分析得出只有11条评分推荐不重复的数据：

（3）查询前十名用户和赞同该用户评论的次数

（4）查询观看情况为“看过”和评论时间大于2018/11/27 18:33的用户个数，结果分析有197人：

（5）查询评分推荐为力荐的人数，结果分析有33人：

（6）查询赞同评论次数大于300的数据，结果分析得出只有14条数据：

（7）查询统计观看情况为看过的数据，结果分析得到200条：

（8）查询赞同评论次数并排序：

（9）查询统计观看情况并排序：

（10）查询用户名为“零点”的评论者：

总结：这次数据分析主要是对之前的爬虫大作业爬到《海王》的影评信息进行HDFS上传、 csv文件预处理生成无标题文本文件并导入数据仓库Hive再进行分析查询数据。爬取的数据不算太大，数据处理分析时间适宜，通过Hive的数据分析，我们可以清楚的知道有多少评论者、前十的用户数据等等。总的来说，这次数据分析还算顺利，希望能分析更大更繁杂的数据。

智能推荐

注意！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系我们删除。

猜您在找

Hadoop综合大作业 Hadoop综合大作业 Hadoop综合大作业 Hadoop综合大作业 Hadoop综合大作业

智能推荐

© 2014-2019 ITdaan.com 粤ICP备14056181号

赞助商广告