• Stars
    star
    583
  • Rank 76,663 (Top 2 %)
  • Language
    Go
  • License
    MIT License
  • Created over 6 years ago
  • Updated over 1 year ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

用于监控系统的日志采集agent,可无缝对接open-falcon

falcon-log-agent

log-agent

Build Status Build Status Build Status Backers on Open Collective Sponsors on Open Collective

目录

简介

falcon-log-agent是一个开源版的日志采集工具,旨在从流式的日志中抓取、统计日志中的特征信息。

获取的特征信息,与开源版Open-Falcon监控系统打通。可用于业务指标的衡量、也可用于稳定性的建设。

Feature

  • 准确可依赖:历经滴滴线上业务近一年考验,统计准确性高。
  • 性能高、资源消耗可控:性能优化程度高,单核单策略可支撑日志分析:20W条/秒
  • 接入成本低:外挂式采集,只需要标准化日志即可;输出数据直接对接open-falcon。

附:我司agent升级前后资源占用对比图 资源对比图

什么是日志采集

日志采集,是一种外挂式的采集。通过读取进程打印的日志,来进行监控数据的采集与汇聚计算。

falcon-log-agent如何工作

本agent即日志采集场景下的实时计算。实时读取文件内容,实时计算,将计算结果直接推送至falcon。

限定条件

  • 要求日志必须包含时间:不包含时间的日志,只能根据当前时间统计日志条数,结果非常不准确。
  • 不支持文件软链
  • 日志时间必须有序:为了应对日志延迟落盘等,agent会根据日志的时间来判断某一周期的数据是否采集完成,如果日志时间顺序错乱,可能导致采集不准。

开始使用log-agent

构建

go get https://github.com/didi/falcon-log-agent.git && cd $GOPATH:/src/github.com/didi/falcon-log-agent
make build

修改配置文件

# base config
cp cfg/dev.cfg cfg/cfg.json
vim cfg/cfg.json

# strategy config
cp cfg/strategy.dev.json cfg/strategy.json
vim cfg/strategy.json

打包 & 安装

make pack
export WorkDir="$HOME/falcon-log-agent"
mkdir -p $WorkDir
tar -xzvf falcon-log-agent.tar.gz -C $WorkDir
cd $WorkDir

启动/停止服务

 # start
./control start

# stop
./control stop

# status
./control status

基础配置项

基础配置项,即程序本身的配置项。默认是cfg/cfg.json,可以通过-c参数来指定。

日志相关

log_path:程序输出的日志目录
log_level:日志等级
log_rotate_size:日志切割大小
log_rotate_num:按配置切割之后,保留多少个文件,其他的清理掉

worker相关

worker_num:每个日志文件,进行计算的并发数
queue_size:读文件和进行计算之间,有一个缓冲队列,如果队列满了,意味着计算能力跟不上,就要丢日志了。这个配置就是这个缓冲队列的大小。
push_interval:循环判断将计算完成的数据推送至发送队列的时间
push_url:推送的odin-agent的url

资源限制

max_cpu_rate:最大使用的cpu百分比。(可用核数=ceil(总核数*max_cpu_rate))
max_mem_rate:最大使用内存百分比。(最大内存=(内存总大小*max_mem_rate),最小为500M)

策略相关

update_duration:策略的更新周期
default_degree:默认的采集精度

其他

http_port:自身状态对外暴露的接口
endpoint:上报至open-falcon的endpoint配置。(可选host或ip,host为主机名,ip为本机ip)

采集策略

文件路径

文件路径,即file_path配置项。必须要求启动agent的用户,对这个文件有可读权限

文件路径支持固定路径和动态路径两种:

  • 固定路径:直接填写即可,如/var/log/falcon-log-agent.log
  • 动态路径:可支持按照规则配置的根据时间变化的路径。例如:
比如:线上有些模块自己按照小时写入文件,路径为:
/xiaoju/application/log/20150723/application.log.2015072312
 
对应的我们的配置方式可以填写为:
/xiaoju/application/log/${%Y%m%d}/application.log.${%Y%m%d%H}    //  ${}中不能包含/

时间格式

时间格式,即time_format配置项。

如果日志中没有时间格式,一旦遇到日志延迟落盘、或者日志量太大计算延迟的情况。会直接导致我们的监控采集不准。

因此,我们规定日志中必须有合法的时间格式。且在配置中time_format项指定。

如果想要添加自己的时间格式,可以直接在common/utils/util.go里添加。

目前已经支持的时间格式如下:

dd/mmm/yyyy:HH:MM:SS
dd/mmm/yyyy HH:MM:SS
yyyy-mm-ddTHH:MM:SS
dd-mmm-yyyy HH:MM:SS
yyyy-mm-dd HH:MM:SS
yyyy/mm/dd HH:MM:SS
yyyymmdd HH:MM:SS
mmm dd HH:MM:SS

PS:为了防止日志积压或性能不足导致的计算偏差,日志采集的计算,依赖于日志的时间戳。
因此如果配置了错误的时间格式,将无法得到正确的结果。

采集规则

采集正则,包含两个配置项:pattern和exclude。

两个采集项都是正则表达式,正则表达式的支持情况见:google/re2

pattern代表需要完全匹配出来的表达式。

exclude代表需要排除掉的表达式。

eg. 例如,我希望统计code=500或400的日志数量,但是想排除掉关键字SpeciallyErrorNo。 配置如下:

pattern: code=[45]00
exclude: SpeciallyErrorNo

采集周期

采集周期(step),对应着监控系统的上报周期。意味着多久合并上报一次。

假设每秒产生1条符合采集规则的日志,配置的采集方式为计数。
如果step为10 : 则每10s上报一次,值为10
如果step为60 : 则每60s上报一次,值为60

采集方式

采集方式(func)的意思是,当我们从日志中筛选出一堆符合规则的日志之后,应该以哪种规则来计算拿到最后的值来上报。

目前支持的采集方式有:

  • cnt
  • avg
  • sum
  • max
  • min

举例:

假设:
正则表达式配置为 Return Success : (\d+)s Used
 
某一个周期内日志滚动:
2017/12/01 12:12:01 Return Success : 1s Used
2017/12/01 12:12:02 Return Success : 2s Used
2017/12/01 12:12:03 Return Success : 4s Used
2017/12/01 12:12:04 Return Success : 2s Used
2017/12/01 12:12:05 Return Success : 1s Used
 
首先,根据正则获取到括号内的值:1、2、4、2、1
接下来,根据不同的计算方式,会得到不同的结果:
avg   : (1 + 2 + 4 + 2 + 1) / 5 = 2
count : 5
sum   : (1 + 2 + 4 + 2 + 1) = 10
max   : Max(1, 2, 4, 2, 1) = 4
min   : Min(1, 2, 4, 2, 1) = 1

采集名称

采集名称(name)对应open-falcon中的metric,即监控项。

标签

标签(tags)与open-falcon中的tags相对应。可以理解为确定监控项的补充。

说明:机器A的第一个核的cpu空闲率。

采集名称(metric): cpu空闲率(cpu.idle)
标签(tags):两个标签: host=机器A;核数=第一个核

在主正则匹配完成后,然后匹配出tag的值,一起进行上报。

若无法匹配出tag的值,则视为该条数据未匹配到,该条日志将不再计入统计

其他

  • degree: 精度
  • comment: 备注

检验日志格式

启动agent,会自动加载所有策略。此时通过**/check**接口,可以实时验证日志是否可以匹配到策略。 /check接口会将该条日志能命中的采集规则,一起返回,并返回命中详情。

方法:POST
参数:log=${日志原文}  // postForm

eg.
curl -s -XPOST localhost:8003/check -d  'log=01/Jan/2018:12:12:12 service error 500, num=10 province=33' | python -m json.tool

自身状态暴露

falcon-log-agent本身对外提供了一个http服务用来暴露自身状态。

主要提供的url如下:

  • /health : 自身存活状态
  • /strategy :当前生效的策略列表
  • /cached : 最近1min内上报的点

自监控

common/proc/metric/metric.go定义了一个自监控结构体。

在程序运行过程中会不断收集信息,主要包括如下:

MemUsedMB       进程内存占用
ReadLineCnt     读日志行数
DropLineCnt     队列打满后,扔掉的日志行数
AnalysisCnt     分析完成的日志行数
AnalysisSuccCnt 分析成功匹配的日志行数
PushCnt         推送的监控数据点数
PushErrorCnt    推送错误的监控数据点数
PushLatency     推送监控数据延迟

这些数据,目前自监控的处理方式是:定时输出日志。

如果需要对接自己公司的监控系统,在common/proc/metric/metric.go修改HandleMetrics方法即可。

贡献者

Contributors

This project exists thanks to all the people who contribute.

Backers

Thank you to all our backers! 🙏 [Become a backer]

Sponsors

Support this project by becoming a sponsor. Your logo will show up here with a link to your website. [Become a sponsor]

More Repositories

1

DoKit

一款面向泛前端产品研发全生命周期的效率平台。
Java
20,108
star
2

cube-ui

🔶 A fantastic mobile ui lib implement by Vue
JavaScript
9,141
star
3

chameleon

🦎 一套代码运行多端,一端所见即多端所见
JavaScript
9,016
star
4

VirtualAPK

A powerful and lightweight plugin framework for Android
Java
8,979
star
5

LogicFlow

A flow chart editing framework focusing on business customization. 专注于业务自定义的流程图编辑框架,支持实现脑图、ER图、UML、工作流等各种图编辑场景。
TypeScript
8,315
star
6

KnowStreaming

一站式云原生实时流数据平台,通过0侵入、插件化构建企业级Kafka服务,极大降低操作、存储和管理实时流数据门槛
Java
6,941
star
7

booster

🚀Optimizer for mobile applications
Kotlin
4,866
star
8

nightingale

An enterprise-level cloud-native monitoring system, which can be used as drop-in replacement of Prometheus for alerting and management.
Go
4,510
star
9

mpx

Mpx,一款具有优秀开发体验和深度性能优化的增强型跨端小程序框架
JavaScript
3,619
star
10

mand-mobile

💰 A mobile UI toolkit, based on Vue.js 2, designed for financial scenarios.
Vue
3,454
star
11

sharingan

Sharingan(写轮眼)是一个基于golang的流量录制回放工具,适合项目重构、回归测试等。
Go
2,276
star
12

tinyid

ID Generator id生成器 分布式id生成系统,简单易用、高性能、高可用的id生成系统
Java
2,265
star
13

xiaoju-survey

XIAOJUSURVEY is an enterprises form builder and analytics platform that allows users to create questionnaires, exams, polls, quizzes, and analyze data online.
TypeScript
2,065
star
14

ChineseNLP

Datasets, SOTA results of every fields of Chinese NLP
HTML
1,783
star
15

DiDiPrism

小桔棱镜,一款专注移动端操作行为的利器! A powerful tool (iOS & Android) that focuses on mobile operation behavior!
Objective-C
1,716
star
16

gendry

a golang library for sql builder
Go
1,613
star
17

Hummer

一套移动端高性能高可用的动态化跨端开发框架
Objective-C
1,339
star
18

DDMQ

DDMQ is a distributed messaging product with low latency, high throughput and high availability.
Java
1,303
star
19

rdebug

Rdebug — Real Debugger
PHP
1,158
star
20

echo

Echo是一款桌面端调试工具,旨在提高客户端的研发调试效率
Objective-C
1,028
star
21

turbo

Turbo is a light-weight flow engine framework, support BPMN2.0. 一款轻量级流程引擎服务框架,可作为底层服务支持各类流程设计、低代码设计、工作流、审批流、服务编排等场景
Java
895
star
22

DroidAssist

A lightweight Android Studio gradle plugin based on Javassist for editing bytecode in Android.
Java
885
star
23

AoE

AoE (AI on Edge,终端智能,边缘计算) 是一个终端侧AI集成运行时环境 (IRE),帮助开发者提升效率。
C++
874
star
24

DRouter

Android Router Framework
Java
739
star
25

AgileTC

AgileTC is an agile test case management platform
JavaScript
673
star
26

super-jacoco

Java
473
star
27

epage

一款基于schema的低代码可视化页面配置工具
Vue
460
star
28

GateKeeper

A high-performance Golang gateway that supports rapid development and plug-inization
Go
436
star
29

sds

SDS是一个基于Java开发的简单、易用、高性能的服务降级系统,支持限流、熔断和降级等功能,服务端必备!!
Java
417
star
30

KnowSearch

面向Elasticsearch研发与运维人员,围绕集群、索引构建的零侵入、多租户的Elasticsearch GUI管控平台
Java
413
star
31

kemon

An Open-Source Pre and Post Callback-Based Framework for macOS Kernel Monitoring.
C
373
star
32

di18n

一种自动转换、基于配置的前端国际化方案
JavaScript
305
star
33

pile.js

pile.js components build with React.
CSS
267
star
34

ES-Fastloader

Quickly build large-scale ElasticSearch indices by using the fault tolerance and parallelism of Hadoop
Java
265
star
35

KnowAgent

基于日志模板构建,采集任务动态管控、数据质量精确度量,一站式日志采集平台
Java
255
star
36

Unify

An efficient, flexible Flutter-Native hybrid communication framework for seamless module integration and automatic code generation.
Dart
255
star
37

LogiCommon

Java版 认证、鉴权、管理、任务调度通用功能组件
Java
218
star
38

Tips

JavaScript
187
star
39

maskdetection

C++
179
star
40

DreamBox

DreamBox是一个为客户端开发者打造的统一视图开发框架,具有性能好、可动态更新的特点
Java
166
star
41

dlflow

DLFlow is a deep learning framework.
Python
157
star
42

didi.github.io

didi website
HTML
143
star
43

hetsann

Source Codes of HetSANN in the AAAI'20 paper: An Attention-based Graph Nerual Network for Heterogeneous Structural Learning.
Python
142
star
44

collection

go collection package for fasting coding
Go
127
star
45

athena

A release version for https://github.com/athena-team/athena
Python
124
star
46

JuShaTa

JuShaTa是一个Java容器,提供模块隔离及模块热加载能力。
Java
121
star
47

logbook

Java
107
star
48

heteta

HetETA: Heterogeneous Information Network Embedding for Estimating Time of Arrival
Python
105
star
49

levin

A Quick Way to Bulk Loading
C++
105
star
50

TrafficIndex

TTI ,Smart Transportation Industry Standard
C++
94
star
51

thrift-mock

A lightweight java test library for mocking thrift server
Java
92
star
52

mand-mobile-rn

💰 Mand Mobile for React Native, designed for financial scenarios.
TypeScript
88
star
53

vue-tmap

一个基于腾讯地图JavaScript API GL、TypeScript 封装适用于 Vue3 的高性能地图组件库
TypeScript
88
star
54

slime-validator

JavaScript library of validation based on Plugin system and make data validation be easy.
JavaScript
85
star
55

mtmc-vt

MTMC Vehicle Tracking For AI City challenge 2019
Jupyter Notebook
70
star
56

FeatureProbe

开源的高效可视化『功能』管理平台,提供灰度发布、AB实验、配置变更全功能。
66
star
57

sgt

didiyun super-agent daemon
Go
58
star
58

ALITA

ALITA is a layer-based data analysis tool. The front-end see
Java
51
star
59

react-tmap

一个基于腾讯地图JavaScript API GL、TypeScript 封装适用于 react 的高性能地图组件库
TypeScript
48
star
60

benchmark-thrift

An open source application designed to load test Thrift applications
Java
45
star
61

elastic-trib

elasticsearch cluster command line tool.
Go
39
star
62

mpx-cube-ui

基于"Mpx 小程序框架"的移动端基础组件库
TypeScript
27
star
63

yarc

基于 eBPF 的流量录制工具
C
26
star
64

tg-flow

Go
24
star
65

paladin

Scala
20
star
66

MEEP

End-to-end framework to build automatic agents (chatbots) for task-oriented dialogs
Python
18
star
67

WorkTrans

Python
15
star
68

ALITA_UI

ALITA is a layer-based data analysis tool. The back-end see
JavaScript
13
star
69

wmt2021_triangular_mt

The baseline model code for WMT 2021 Triangular MT
Python
13
star
70

MeetDot

Python
12
star
71

DAIBench

Shell
10
star
72

didi-tech-edu

9
star
73

daedalus

JavaScript
7
star
74

tmap-types

腾讯地图 js api 类型声明,主要用于 react-tmap 和 vue-tmap 组件库
5
star
75

Json-adapter

Java
3
star