
Spark离线数据仓库+Flink实时数据仓库项目源码及部署资料.rar
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本资源包包含基于Spark和Flink的数据仓库系统完整源代码与详细部署文档,适用于构建混合型大数据处理环境。
实时数仓分层采用的计算框架是Flink;存储框架包括消息队列(支持实时读取及写入)。ODS层使用Kafka:每当接收到一条数据就进行读取并加工处理。DIM层利用HBase,适用于事实表通过主键获取维表一行的数据情况,这其中包括永久存储和根据主键查询的功能;而Kafka由于不能长期保存一些重要的用户信息,并且不支持基于主键的查询功能。相比之下,HBase可以实现海量数据的持久化存储并能提供快速按主键查找服务。
DWD层同样使用Kafka:每接收到一条新数据就会进行读取和分组累加处理。在DWS层面,则采用ClickHouse作为主要工具来应对场景需求。不过,在选择具体技术方案时,需要考虑各数据库的适用性与限制条件,例如Redis适合存储大量用户表但不适合内存操作;ClickHouse虽然支持列式存储却可能不适用于高并发环境;ES默认情况下会对所有字段创建索引;Hive在HDFS上的效率较低且MySQL本身承受压力过大时建议使用从库来缓解。
全部评论 (0)
还没有任何评论哟~


