大数据-Hadoop-基础篇-第六章-Hive (搜狗用户搜索词分析)

目录
参考
业务需求
使用搜狗实验室提供【用户查询日志(SogouQ)】数据,使用Hive,将数据封装到RDD中 进行业务数据处理分析。数据网址:http://www.sogou.com/labs/index.php
数据分析
查询前10条数据
查询前10个访问量最高的用户ID及访问数量,并按照访问量降序排列
select user_id, count(*) as num from activelog
group by user_id
order by num desc
limit 10;
分析链接排名与用户点击的相关性
排名 点击次数
1 5645
2 4578
3 3242
由此可见,排名靠前的,点击次数越多。
分析一天中上网用户最多的时间段
只需要时间段和访问量
select substr(time,1,2), count(*) as num from activelog group by substr(time,1,2) order by num desc limit 10;
查询同一个域名用户的点击数量最高的前10个
select substr(url,1,instr(url,"/")-1) hostname, count(*) num from activelog
group by substr(url,1,instr(url,"/")-1)
order by num desc
limit 10;