Top Rating
- Top Contributors
  Discover the Top Open Source contributors by country or by language
- Interviews
  Discover real stories from Open Source developers
Discover

Discover your Favorite Language
Discover the top trending repositories and projects on Github. Explore the latest trends in your preferred languages.

Emacs Lisp

PowerShell

MATLAB

OCaml

Go

JavaScript

Java

Objective-C

More Languages
Awesome

Awesome repositories
Discover the most awesome repositories and projects of your favorite languages. Inspired by the Awesome-* lists trend in GitHub.

Shell

Perl

Rust

Erlang

Ada

Swift

Go

MATLAB

More Languages
By Country

Rankings by Country
Discover the community of talented open source contributors in each country.

🇨🇴 Colombia

🇦🇴 Angola

🇳🇪 Niger

🇵🇪 Peru

🇨🇿 Czechia

🇸🇩 Sudan

🇷🇪 Réunion

🇲🇭 Marshall Islands

All Countries Compare Countries

qindongliang/streaming-offset-to-zk

Stars
135
Rank 269,297 (Top 6 %)
Language
Scala
License
MIT License
Created almost 7 years ago
Updated 4 months ago

qindongliang/streaming-offset-to-zk

qindongliang

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

一个手动管理spark streaming集成kafka时的偏移量到zookeeper中的小项目

streaming-offset-to-zk

项目背景

公司有一个比较核心的实时业务用的是spark streaming2.1.0+kafka0.9.0.0的流式技术来开发的，存储用的hbase+elasticsearch+redis，这中间趟过很多坑，解决了一些bug和问题，在这里我把它做成了一个骨架项目并开源出来，希望后来的朋友可以借阅和参考，尽量少走些弯路，当然如果中间遇到或者发现什么问题都可以给我提issue。

下面是使用过程中记录的一些心得和博客，感兴趣的朋友可以了解下：

（1）spark streaming自带的checkpoint容错使用

（2）spark streaming自带的checkpoint的弊端

（3）如何管理spark streaming消费Kafka的偏移量（一）

（4）如何管理spark streaming消费Kafka的偏移量（二）

（5）如何管理spark streaming消费Kafka的偏移量（三）

（6）spark streaming程序如何优雅的停止服务（一）

（7）spark streaming程序如何优雅的停止服务（二）

（8）spark streaming程序如何优雅的停止服务（三）

项目简介

该项目提供了一个在使用spark streaming2.1+kafka0.9.0.0的版本集成时，手动存储偏移量到zookeeper中，因为自带的checkpoint弊端太多，不利于项目升级发布，并修复了一些遇到的bug，例子中的代码已经在我们生产环境运行，所以大家可以参考一下。

主要功能

（1）提供了快速使用 spark streaming + kafka 开发流式程序的骨架，示例中的代码大部分都加上了详细的注释

（2）提供了手动管理kafka的offset存储到zookeeper的方法，并解决了一些bug，如kafka扩容分区，重启实时流不识别新增分区的问题。

（3）提供了比较简单和优雅的关闭spark streaming流式程序功能

博客相关

（1）个人站点(2018之后，同步更新）

（2）iteye博客

我的公众号(woshigcs)

有问题可关注我的公众号留言咨询

answer_sheet_scan

使用python3+opencv3实现的一些识别答题卡的例子

hbase-increment-index

hbase+solr实现hbase的二级索引

hive-solr

使用Hive读写solr

log_to_kafka

收集应用程序的log统一发送到kafka中

solr-custom-score

solr自定义评分组件demo

shell-mysql

shell脚本分页导出mysql数据

python_log_json

一个将Python的log给转成json格式的工具包

Java-Note

Java相关的笔记

lucene-ik

支持lucene5.x和solr5.x的ik分词器

cussh

自动批量创建用户和配置SSH无密码登陆

autoinstallhadoop

自动安装JDK,Maven,Ant,Maven,Hadoop的脚本

PigExtend

Apache Pig+MapReduce给Lucene/Solr/ElasticSearch构建索引

ARTS

Algoritm，Review，Technique，Share

lucene-garbage-check

使用lucene内存索引，根据规则，识别垃圾数据项目

spring-boot-properties

注解ConfigurationProperties的使用例子

log2json

提供了一个log4j的layout，可以把输出日志给转化成json格式，并支持自定义的数据字段

easy-package

一个maven项目打包部署的的骨架模板

lucene-simple-pinyin

支持，Lucene，Solr5.x拼音分词插件

opecv3-study

opencv3相关学习的一些例子和工具