repository
概述
- 个人学习知识库涉及到数据仓库建模、实时计算、大数据、Java、算法等。
- 在线文档
RoadMap
基础能力
数据结构
分布式理论
计算机理论
Scala
JVM
Java
并发编程
JDK源码
todo
算法
BigData
cache
数据编排技术
alluxio
datalake
hudi
quick start
doc with source
配合官方文档和源码带从0到1学习hudi
article
iceberg
store
存储相关,包含rocksdb、Hbase、BookKeeper、Zookeeper等
rocksDB
Bookkeeper
HBase
Zookeeper
Hadoop
广义上的Hadoop生态圈的学习笔记,主要记录HDFS、MapReduce、Yarn相关读书笔记及源码分析等。
HDFS
MapReduce
Yarn
生产配置
Engine
计算引擎相关,主要包含Flink、Spark等
Flink
- 主要包含对Flink文档阅读的总结和相关Flink源码的阅读,以及Flink新特性记录等等
Core
- FlinkOverView
- CheckPoint机制
- TableSQLOverview
- DataStream API
- ProcessFunction API
- Data Source
- Table API
- Flink SQL
- Flink Hive
- Flink CEP
- Flink Function
- DataSource API
SourceCode
- FlinkCheckpoint源码分析
- FlinkChangelogCheckpoint
- FlinkSQL源码解析
- Flink内核源码分析
- Flink网络流控及反压
- TaskExecutor内存模型原理深入
- Flink窗口实现应用
- Flink运行环境源码解析
- FlinkTimerService机制分析
- StreamSource源解析
- Flink状态管理与检查点机制
zoology
Paimin
Flink CDC Connector
devops
Flink On K8s
Flink SQL Tools
Book
Flink内核原理与实现
Feature
Practice
Connector
monitor
Spark
主要包含Spark相关书籍读书笔记、Spark核心组件分析、Spark相关API实践以及Spark生产踩坑等。
Spark Core
Spark SQL
Spark Practice
Spark Streaming
Native SQL Engine
源码解析
Collect
数据采集框架,主要包含Binlog增量与SQL快照方式框架
Canal
Debezium
Flume
Sqoop
MQ
消息中间件相关,主要包含大数据中使用比较多的Kafka和Pulsar
Kafka
Pulsar
schedule
Azkaban
DolphinScheduler
olap
主要核心包含Kudu、Impala相关Olap引擎,生产实践及论文记录等。
Hive
Presto
clickhouse
Druid
Kylin
Kudu
paper
Impala
graph
图库相关
nebula graph
tools
工具集相关,包含计算平台、sql语法Tree等
zeppelin
SQL语法树
calcite
数据仓库建设
理论
数据中台设计
方案实践
读书笔记
books
数据笔记相关