大数据相关框架学习
本仓库主要存放了一些学习大数据的实战项目代码,项目来源主要来自慕课网
1. 集群搭建
- 这里面的项目都可以通过搭建单机standalone模式完成整个流程
- 这学期云计算课程需要使用集群环境,刚好学校有云资源,记录下集群搭建过程
- 集群搭建
2. 目录结构
hadoop-train
- Hadoop基础与电商行为日志分析 新手入门大数据
- 本课程从Hadoop核心技术入手,以电商项目为依托,带领你从0基础开始上手,逐步掌握大数据核心技术(如:HDFS、YARN、MapReduce以及Hive),并使用这些技术进行实战,最终完成电商行为日志分析项目,让你轻松入门大数据!
项目博客
spark-train, spark-data-visualization
- Spark Streaming实时流处理项目实战
- 本课程从实时数据产生和流向的各个环节出发,通过集成主流的分布式日志收集框架Flume、分布式消息队列Kafka、分布式列式数据库HBase、及当前最火爆的Spark Streaming打造实时流处理项目实战,让你掌握实时处理的整套处理流程,达到大数据中级研发工程师的水平!
项目博客
- 初识实时流处理
- 分布式日志收集框架Flume
- 分布式发布订阅消息系统Kafka
- Spark Streaming入门
- Spark Streaming整合Flume
- Spark Streaming整合Kafka
- Spark Streaming整合Flume&Kafka打造通用流处理基础
- Spark Streaming项目实战
- 可视化实战
spark-sql-train, spark-sql-visualization
- 以慕课网日志分析为例 进入大数据Spark SQL的世界
- 本课程以“慕课网日志分析”这一大数据应用案例为主线,使用慕课网真实日志,以目前主流的、最新的Spark稳定版2.1.x为基础,依次介绍相关的大数据技术:Hadoop、Hive、Spark SQL,涉及数据清洗、统计存储、处理入库以及数据可视化(Echarts、Zeppelin),最终会形成一个完整的大数据项目。
项目博客
storm-train, storm-data-visualization
- 基于Storm构建实时热力分布项目实战
- Storm是实时流处理领域的一柄利器,本课程采用最新的Storm版本1.1.0,从0开始由浅入深系统讲解,深入Storm内部机制,掌握Storm整合周边大数据框架的使用,从容应对大数据实时流处理!
项目博客
flink-train
- 新一代大数据计算引擎 Flink从入门到实战
- 随着云计算和大数据的快速发展,在企业中需要处理和分析的数据量越来越大,随着Flink社区的快速发展,很多公司采用以Flink为核心技术栈来打造统一的大数据处理平台 ,Flink正变得越来越火,此时学习,正当其时。课程中从核心知识的多语言(Java-Scala)讲解到部署实战,循序渐进,助力系统入门Flink企业级应用
项目博客
hbase-train
- HBase+Spring Boot实战分布式文件存储
- HBase是一个分布式可扩展的列式数据库,基于Hadoop实现大数据存储,提供数据的随机读写访问。 本课程讲解HBase集群部署、基础原理、高级特性、优化策略、容灾监控、开发实战,以及HBase相关的其他开源项目(如Phoenix,Sqoop等),感兴趣的小伙伴千万不要错过!