大数据架构
大数据架构处理PB级数据的存储、计算和分析。
目录
- 批处理 - Hadoop、Spark
- 流处理 - Flink、Kafka Streams
- 实时数仓 - Lambda/Kappa架构
- OLAP引擎 - ClickHouse、Druid
- Hadoop与HDFS - Hadoop生态、HDFS存储
- Hive数据仓库 - HiveQL、数据仓库
- HBase - NoSQL列式数据库
- 数据采集 - Flume、Logstash、Sqoop、Canal
- Presto/Trino - 交互式查询引擎
- 数据湖 - Iceberg、Delta Lake、Hudi
- Airflow - 工作流调度
大数据技术栈
┌────────────────────────────────────────────────────┐
│ 大数据技术栈 │
├────────────────────────────────────────────────────┤
│ 数据采集 Flume、Kafka、Logstash、Canal、Sqoop │
│ 数据存储 HDFS、S3、HBase、Cassandra │
│ 数据湖 Iceberg、Delta Lake、Hudi │
│ 批处理 Hadoop MR、Spark、Flink │
│ 流处理 Flink、Storm、Spark Streaming │
│ 数据仓库 Hive、Doris │
│ 查询引擎 Presto/Trino、ClickHouse │
│ OLAP ClickHouse、Doris、StarRocks │
│ 调度 Airflow、Oozie、DolphinScheduler │
└────────────────────────────────────────────────────┘开始学习 → 01_batch_processing.md
💬 讨论
使用 GitHub 账号登录后即可参与讨论