
Hudi:大数据的增量与实时处理
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
Hudi(HUDI)是一种开源的数据管理技术,专为简化大型数据集的更新和维护而设计。它支持高效的大规模数据集的插入、更新和删除操作,并且能够轻松地将静态数据湖转变为动态、交互式数据源,使大数据处理更为灵活与实时。
阿帕奇·胡迪(Apache Hudi)发音为Hoodie,代表Hadoop Upserts Deletes and Incrementals。它管理大型分析数据集的存储在DFS(云存储、HDFS或任何与Hadoop FileSystem兼容的存储)上。
其主要特征包括:
- 快速插入索引支持Upsert
- 通过回滚机制提供原子性发布和作者与查询之间的快照隔离
- 数据恢复时使用保存点管理文件大小,布局行及列数据,并异步压缩以优化性能。
- 时间轴元数据用于追踪血缘关系。
- 聚类功能可以优化数据湖的结构。
Hudi支持以下三种类型的查询:
1. 快照查询:采用基于列和基于行存储方式的组合提供实时快照视图;
2. 增量查询:为变更流提供在特定时间点之后插入或更新的数据记录;
3. 读取优化查询:通过纯列式存储,以卓越性能执行快照查询。
欲了解更多关于Hudi的信息,请从源代码构建Apache Hudi。
全部评论 (0)
还没有任何评论哟~


