聊天记录分析报告,Hadoop学习(12)—— Hadoop生态综合案例-陌陌聊天数据分析
1 陌陌聊天数据分析案例需求
1.1 目标
基于Hadoop和Hive实现聊天数据统计分析,构建聊天数据分析报表。
1.2 需求统计今日总消息量统计今日每小时消息量、发送和接收用户数统计今日各地区发送消息数据量统计今日发送消息和接收消息的用户数统计今日发送消息最多的Top10用户统计今日接收消息最多的Top10用户统计发送人的手机型号分布情况统计发送人的设备操作系统分布情况1.3 数据内容数据大小:两个文件共14万条数据列分隔符:制表符 t数据字典及样例数据2.2.2 数据问题问题1:当前数据中,有一些数据的字段为空,不是合法数据。问题2:需求中,需要统计每天、每个小时的消息量,但是数据中没有天和小时字段,只有整体时间字段,不好处理。问题3:需求中,需要对经度和维度构建地区的可视化地图,但是数据中GPS经纬度为一个字段,不好处理。2.2.3 ETL需求需求1:对字段为空的不合法数据进行过滤Where过滤需求2:通过时间字段构建天和小时字段substr函数需求3:从GPS的经纬度中提取经度和维度 Split函数需求4:将ETL以后的结果保存到一张新的Hive表中 Create table …… as select ……2.2.4 ETL实现
–如果表已存在就删除drop table if exists db_msg.tb_msg_etl;–将Select语句的结果保存到新表中create table db_msg.tb_msg_etl asselect*,substr(msg_time,0,10) as dayinfo, substr(msg_time,12,2) as hourinfo, –获取天和小时split(sender_gps,”,”)[0] as sender_lng, split(sender_gps,”,”)[1] as sender_lat –提取经度纬度from db_msg.tb_msg_source–过滤字段为空的数据where length(sender_gps) > 0 ;
查看结果
selectmsg_time,dayinfo,hourinfo,sender_gps,sender_lng,sender_latfrom db_msg.tb_msg_etllimit 10;2.3 需求指标统计2.3.1 指标1:统计今日消息总量
–保存结果表create table if not exists tb_rs_total_msg_cnt comment “今日消息总量”asselect dayinfo,count(*) as total_msg_cntfrom db_msg.tb_msg_etlgroup by dayinfo;2.3.2 指标2:统计每小时消息量、发送和接收用户数
–保存结果表create table if not exists tb_rs_hour_msg_cnt comment “每小时消息量趋势”asselect dayinfo,hourinfo,count(*) as total_msg_cnt,count(distinct sender_account) as sender_usr_cnt,count(distinct receiver_account) as receiver_usr_cntfrom db_msg.tb_msg_etlgroup by dayinfo,hourinfo;2.3.3 指标3:统计今日各地区发送消息总量
–保存结果表create table if not exists tb_rs_loc_cntcomment “今日各地区发送消息总量”asselect dayinfo,sender_gps,cast(sender_lng as double) as longitude,cast(sender_lat as double) as latitude,count(*) as total_msg_cntfrom db_msg.tb_msg_etlgroup by dayinfo,sender_gps,sender_lng,sender_lat;2.3.4 指标4:统计今日发送和接收用户人数
–保存结果表create table if not exists tb_rs_usr_cntcomment “今日发送消息人数、接受消息人数”asselect dayinfo,count(distinct sender_account) as sender_usr_cnt,count(distinct receiver_account) as receiver_usr_cntfrom db_msg.tb_msg_etlgroup by dayinfo;2.3.5 指标5:统计发送消息条数最多的Top10用户
–保存结果表create table if not exists tb_rs_susr_top10comment “发送消息条数最多的Top10用户”asselect dayinfo,sender_name as username,count(*) as sender_msg_cntfrom db_msg.tb_msg_etlgroup by dayinfo,sender_nameorder by sender_msg_cnt desclimit 10;2.3.6 指标6:统计接收消息条数最多的Top10用户
–保存结果表create table if not exists tb_rs_rusr_top10comment “接受消息条数最多的Top10用户”asselect dayinfo,receiver_name as username,count(*) as receiver_msg_cntfrom db_msg.tb_msg_etlgroup by dayinfo,receiver_nameorder by receiver_msg_cnt desclimit 10;2.3.7 指标7:统计发送人的手机型号分布情况
–保存结果表create table if not exists tb_rs_sender_phonecomment “发送人的手机型号分布”asselect dayinfo,sender_phonetype,count(distinct sender_account) as cntfrom tb_msg_etlgroup by dayinfo,sender_phonetype;2.3.8 指标8:统计发送人的操作系统分布
–保存结果表create table if not exists tb_rs_sender_oscomment “发送人的OS分布”asselect dayinfo,sender_os,count(distinct sender_account) as cntfrom tb_msg_etlgroup by dayinfo,sender_os;
3 基于FineBI实现可视化报表
3.1 FineBI的介绍及安装FineBI 是帆软软件有限公司推出的一款商业智能(Business Intelligence)产品。FineBI 是定位于自助大数据分析的 BI 工具,能够帮助企业的业务人员和数据分析师,开展以问题导向的探索式分析。FineBI的特点通过多人协作来实现最终的可视化构建不需要通过复杂代码来实现开发,通过可视化操作实现开发适合于各种数据可视化的应用场景支持各种常见的分析图表和各种数据源支持处理大数据3.2 FineBI配置数据源及数据准备FineBI与Hive集成的官方文档3.2.1 驱动配置问题:如果使用FineBI连接Hive,读取Hive的数据表,需要在FineBI中添加Hive的驱动jar包。解决:将Hive的驱动jar包放入FineBI的lib目录下。找到提供的【Hive连接驱动】放置
将这些文件放入FineBI的安装目录下的:webappswebrootWEB-INFlib目录中。
3.2.2 插件安装问题:我们自己放的Hive驱动包会与FineBI自带的驱动包产生冲突,导致FineBI无法识别我们自己的驱动包。解决:安装FineBI官方提供的驱动包隔离插件。找到隔离插件安装插件重启FineBI3.2.3 构建连接新建连接配置连接3.2.4 数据准备新建分组添加表
如发现本站有涉嫌抄袭侵权/违法违规等内容,请<举报!一经查实,本站将立刻删除。