
大数据可视化,通过联通用户活动数据的可视化样本,读取csv文件。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
【知识准备】涵盖探索性数据分析的核心理论和操作技能;包括Python编程语言及其相关库的使用,例如Pandas、Numpy、Matplotlib以及Seaborn,以及Scikit-Learn。 【实训要求】首先,需要仔细审视样本数据的结构和关键数据特征;其次,应具备读取样本数据并观察其结构及前10行和后10行数据的能力;随后,需对样本数据进行深入分析,以识别其中的业务数据分布规律;接着,利用可视化工具清晰地呈现分析结果;此外,还需要识别并提出解决策略,针对每个特征的样本数据中的缺失值和异常值;进一步地,需要对样本数据进行必要的预处理操作;最后,可以选择性地将样本数据导入HBase数据库。 【实训内容】任务2至11涉及的数据源为“sodadata”文件夹下的“联通数据_Sample”数据集。同时,项目数据集包括表一结果_Sample_1000条.csv和表二结果_Sample_1000条.csv。针对表一样本数据: (1) 需对不同时间段采样的基站服务区内移动用户的活跃度分布进行分析并进行可视化展示;(2) 需要分析并展示服务区内移动用户的工作时间和休息时间的活跃度分布,并对当地居民和外来移动用户进行区分;(3) 进一步分析用户活动规律,基于其通信特点进行分类(可选)。 针对表二样本数据: (1) 需要分析并展示样本数据中年龄、性别、终端品牌等各类数据的分布规律;(2) 需识别缺失和异常数据,并提出相应的处理与预处理方案;(3) 应该筛选出具有高价值的重点用户(提示:从业务量或消费等方面进行考量);(4) 如果表一和表二的数据均来自相同的服务区采集,则需要思考并提出更进一步的分析方案以及相关的商业营销方案(可选)。 5、最终成果应使用Jupyter Notebook编写程序及相关文档,并将最终结果以PDF文档形式打印输出。
全部评论 (0)


