
设计与实现新闻日志大数据分析及可视化系统。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
每日都涌现出大量用户对各类新闻的关注,尤其是在各种网络通信技术日益成熟的背景下,网络应用的广泛普及使得人们随时随地通过网络进行新闻搜索,从而产生海量的日志数据。 传统上,单机方式通过MySQL数据库存储这些数据,但随着用户日志数据量的不断增长,单台电脑往往难以满足存储如此庞大的数据需求,进而引发了海量数据存储的挑战。如果采用网络文件系统进行数据分散存储,则无法有效地对大量的实时和离线数据进行分析处理,且处理结果也难以以更加直观的方式呈现。为了应对新闻业务中对实时用户搜索内容排行以及可视化显示的迫切需求,旨在识别公众关注的重点内容,并以此为基础实现针对性推送、广告投放以及及时处理不良用户行为等目标。本文在深入调研上述需求后,利用Flume日志收集系统读取并合并来自各个服务器上的日志文件,并将数据划分为离线流数据和实时流数据两条路径。离线数据通过Hadoop集群进行处理和存储,借助Hive完成离线数据的处理与分析工作,最终通过Hue实现对用户的可视化呈现。 实时流数据则首先通过Kafka消息队列进行临时存储,随后由Spark流处理引擎进行处理,并将最终结果存储至MySQL数据库中;Java程序负责从MySQL数据库中获取相关信息,并最终借助Echarts插件在前端实现对实时数据的可视化展示。本文详细阐述了系统研究的背景、所追求的目的以及其重要意义。同时, 对系统所采用的相关技术的原理进行了深入介绍;对系统进行了全面的需求分析, 并按照系统实现的功能模块进行了细致划分;在完成需求分析后, 进一步细化了硬件平台构建以及各个功能模块的设计与实现工作, 最终实现了用户搜索日志数据的结构化处理和可视化展示。最后, 对课题的工作进行了总结性阐述, 并对未来系统中可能存在的改进方向进行了分析与探讨。
全部评论 (0)


