Advertisement

百度Palo至Apache Doris (Incubating): 开源之旅

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
本文讲述了百度Palo项目演进为Apache Doris的过程及其在开源社区的发展历程和技术创新。 Doris是由百度开发的一种面向在线报表和分析的数据仓库系统,与商业上的MPP数据仓库系统如Greenplum、Vertica、Teradata等相媲美。2018年7月18日,Apache基金会正式宣布将Doris纳入其孵化器项目中。自开源以来,已有包括小米、美团、链家、品友互动、瓜子和搜狐在内的十多家互联网公司使用了Doris。 为了促进开发者的交流与合作,Doris已经建立了一个以Github、邮件组以及微信群等工具为基础的开发社区,无论开发者还是用户都可以通过这些平台与Doris团队进行沟通,提出问题并寻找解决方案。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • PaloApache Doris (Incubating):
    优质
    本文讲述了百度Palo项目演进为Apache Doris的过程及其在开源社区的发展历程和技术创新。 Doris是由百度开发的一种面向在线报表和分析的数据仓库系统,与商业上的MPP数据仓库系统如Greenplum、Vertica、Teradata等相媲美。2018年7月18日,Apache基金会正式宣布将Doris纳入其孵化器项目中。自开源以来,已有包括小米、美团、链家、品友互动、瓜子和搜狐在内的十多家互联网公司使用了Doris。 为了促进开发者的交流与合作,Doris已经建立了一个以Github、邮件组以及微信群等工具为基础的开发社区,无论开发者还是用户都可以通过这些平台与Doris团队进行沟通,提出问题并寻找解决方案。
  • Apache Doris (Incubating) 原理及应用实践.pdf
    优质
    本PDF深入探讨了Apache Doris(孵化中)的核心原理及其在实际场景中的应用案例,旨在为数据仓库建设与复杂查询优化提供技术指导。 Doris(原百度 Palo)是一款基于大规模并行处理技术的分布式 SQL 数据库,由百度在 2017 年开源,并于 2018 年 8 月进入 Apache 孵化器。
  • apache-doris-2.0-a-build-env
    优质
    Apache Doris 2.0 Build Env提供了一个简化的构建环境设置指南,帮助开发者快速启动和运行Doris最新版本。 编译 Apache Doris 的镜像 apache-doris-build-env-for-2.0。
  • Apache Doris 使用案例集
    优质
    Apache Doris 使用案例集汇集了基于 Doris 的多种应用场景和技术实践,旨在为数据仓库和实时分析需求提供高效解决方案。 过去的一年无疑是 Apache Doris 发展历程中的重要里程碑。凭借对技术创新的不懈追求以及用户体验的高度关注,Apache Doris 已经获得了全球超过 2000 家企业的认可,并在企业实时数据分析的各种场景中得到了广泛应用。得益于广大社区用户和开发者的支持,Apache Doris 成为了数据库和大数据领域中最活跃的开源项目之一。 为帮助更多人更好地使用 Apache Doris ,我们从过去一年间各行各业的应用实践中精选出最具代表性和启发性的案例,汇编成《Apache Doris 用户案例集》。该手册包含超过 20 万字的技术干货,旨在帮助企业构建高性能实时数据仓库。欢迎大家下载阅读!
  • 关于 Apache Doris 的技术调研
    优质
    本报告深入探讨了Apache Doris,一款高性能的实时分析型数据库,旨在评估其技术架构、核心功能及应用场景,为企业数据处理提供决策参考。 建议在研究Apache Doris技术调研的同时参考我的同名博客进行学习。
  • Docker 创建 apache-doris-1.2.4.1 镜像,含 FE 和 BE
    优质
    本项目提供了一个详细的指南和脚本用于构建包含FE与BE服务的Apache Doris 1.2.4.1 Docker镜像,基于Docker技术简化部署流程。 压缩包内的目录结构如下: ``` . ├── be │ ├── Dockerfile │ └── resource │ ├── apache-doris-1.2.4.1-bin-x86_64.tar.xz │ ├── entry_point.sh │ ├── init_be.sh │ └── mysql-5.7.22-linux-glibc2.12-x86_64.tar.gz └── fe ├── Dockerfile └── resource ├── apache-doris-1.2.4.1-bin-x86_64.tar.xz ├── init_fe.sh └── mysql-5.7.22-linux-glibc2.12-x86_64.tar.gz ```
  • Apache Doris数据综合分析实战案例
    优质
    《Apache Doris数据综合分析实战案例》是一本深入讲解如何使用Doris进行高效数据分析与处理的技术书籍,通过丰富的实例帮助读者掌握其实战应用技巧。 ### Apache Doris 数据分析综合案例实战 #### 一、背景介绍 随着互联网技术的发展和电商平台的崛起,诸如京东这样的大型电商平台在每年特定时间举办的大规模促销活动已成为吸引大量消费者参与的重要营销手段。京东618作为中国乃至全球范围内重要的网络购物节之一,在每年6月18日前后达到高潮。自1998年京东创立以来,618已经成为京东最重要的年度庆典之一,同时也逐渐发展成为与双11并驾齐驱的另一全民网购狂欢节。 #### 二、项目需求分析 ##### 2.1 项目需求 在当前大数据时代背景下,电商平台需要利用先进的数据处理技术和工具来实时监测销售情况及用户行为,以便做出快速反应并优化运营策略。具体来说,企业需要一套能够实时展示订单数据与用户访问数据的大屏系统,以便管理层能够迅速获取关键业务指标,进行决策支持。 ##### 2.2 数据来源 - **PVUV数据来源**:页面埋点技术被广泛应用于收集用户的浏览行为,这些数据被发送到Web服务器,并由其写入Kafka的`click_log`主题中。 - **销售金额与订单量数据来源**:订单数据主要来源于MySQL数据库。通过对MySQL数据库的Binlog日志进行监听,可以实时捕获订单变化,并通过Canal工具将这些数据实时同步到Kafka的`order`主题中。 #### 三、实现方案 针对不同规模的企业以及不同的数据量和实时性要求,有多种实现方案可供选择: ##### 3.1 Java方式实现 对于小型企业或数据量相对较小的情况(例如,核心数据总量小于20万条),可以通过编写Java程序定时查询MySQL数据库来获取所需的数据。这种方式简单且实用,只需对MySQL数据库进行适当的优化(如增加索引等)即可满足需求。 ##### 3.2 通过Flink方案实现 当数据量特别大,无法直接通过MySQL查询时,可以采用Apache Flink这种流处理框架来实现。例如,在阿里巴巴的双十一期间就采用了此类方案来实现实时监控大屏的需求,确保延迟不超过1秒,从而满足了极高的实时性要求。 ##### 3.3 实时数仓项目架构 为了更好地整合各种数据源并提供统一的数据服务接口,构建实时数仓是一个理想的选择。实时数仓能够高效地处理海量数据,并为上层应用提供低延迟的数据访问能力。在此基础上,可以进一步集成Apache Doris等分布式存储引擎,实现高效的数据查询和分析功能。 #### 四、服务器环境介绍 本项目涉及多台服务器,主要包括以下配置: - **主机名**:node01、node02、node03 - **操作系统**:CentOS 7.5.1804 - **IP地址**:分别为192.168.10.10、192.168.10.20、192.168.10.30 - **内存**:3GB - **硬盘**:40GB #### 五、框架软件版本 为了支持实时数仓项目的运行,需要在所有节点上安装以下软件及其对应版本: - **CentOS**:7.5 - **JDK**:1.8.0_181 - **MySQL**:5.7(仅在node01上) - **ZooKeeper**:3.4.9 - **Flume**:1.8.0 - **Kafka**:2.11-0.10.0.0 - **Canal**:1.1.4 - **Doris**:0.22 - **FineBI**:5.1.10 #### 六、前置操作 - **启动Zookeeper集群**:在每台节点上执行`zkServer.sh start` - **启动Kafka集群**:同样需要在每台节点上启动 - **启动Doris集群**:包括FE和BE两个组件,通过指定的脚本分别启动 #### 七、数据模拟 为了测试整个系统的稳定性和性能,需要进行数据模拟工作,具体步骤如下: ##### 7.1 导入MySQL数据库 - 在MySQL中创建名为`itcast_shops`的数据库 - 使用提供的SQL脚本段落件导入初始数据 ##### 7.2 行为日志数据模拟 - 下载并解压安装包,并进行相应的配置调整,修改配置文件设置日志输出路径。 - 创建日志输出目录后启动数据生成器查看是否正常运行。 ##### 7.3 业务订单数据模拟 - 同样下载并解压相关软件包后根据需要调整相应参数,然后启动订单数据
  • Vivado 2017_1 .pdf
    优质
    本PDF文档为初学者提供了从零开始学习Xilinx Vivado 2017.1版EDA工具的指导教程,涵盖基础操作和项目管理等内容。 对于FPGA初学者来说,入门阶段可能会遇到一些挑战。建议从基础理论开始学习,并通过实践项目来加深理解。可以参考相关的教程书籍或在线课程资源,逐步掌握硬件描述语言(如VHDL、Verilog)的使用方法和技巧。同时,多参与社区讨论和技术交流活动也是提高技能的有效途径之一。
  • H323学习,H323学习H323学习
    优质
    H323学习之旅是一段深入探索H.323协议标准及其应用的旅程。从基础概念到高级配置,带领你全面掌握视频会议系统的关键技术与实践技巧。 H323学习征程 H323学习征程 H323学习征程 H323学习征程 H323学习征程 H323学习征程 H323学习征程
  • Redis - 深探索Redis.pdf.zip
    优质
    本书为读者提供了一条深入了解和掌握Redis的路径,涵盖了从基础概念到高级特性的全面讲解。通过实例与实践操作,帮助读者提升对高性能缓存系统Redis的应用能力。 Redis - Redis深度历险.pdf.zip 这是一份关于Redis的深入学习资料。