• Stars
    star
    243
  • Rank 160,324 (Top 4 %)
  • Language
    Java
  • License
    Apache License 2.0
  • Created almost 3 years ago
  • Updated 3 months ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

基于日志模板构建,采集任务动态管控、数据质量精确度量,一站式日志采集平台

KnowAgent 一站式日志采集平台

​ 阅读本文档,您可以了解到 KnowAgent 的用户群体、产品定位等信息,并通过体验地址,快速体验以应用为采集粒度,从应用维度批量下发采集任务全流程。若KnowAgent已在贵司的生产环境进行使用,并想要获得官方更好地支持和指导,可以通过添加微信号WilliamHu66,加入官方交流平台。

1 产品简介

KnowAgent 源于滴滴多年来在各核心场景沉淀的超大规模采集引擎集群运维实践经验。经历过多方考验,对于大规模 Agent 日志采集的治理管控,采集任务与 Agent 的可观测性、健康度巡检、故障诊断已经沉淀出一套完善的解决方案。KnowAgent 以应用为采集粒度,满足了从业务层面创建采集任务的需求,并易于将文件采集作为流式计算的一种可靠数据源进行接入、管理。

1.1 前置申明

1.1.1 Agent 与采集任务管控规模

KnowAgent 基于最小依赖、便于体验,采用 MySQL 存储 Agent 的 Metrics 与 Error Logs 数据。受制于 MySQL 性能瓶颈,在单个采集任务对应一个采集路径、Metrics 与 Error Logs 数据保存周期为一周的情况下,支持 50 个 Agent 与 50 个采集任务的管控。如需要管控更多的 Agent 与采集任务,参见《如何替换Agent的Metrics与Error Logs数据存储引擎以纳管更大的Agent集群》

1.1.2 容器采集

KnowAgent目前对容器日志采集未实现平台化支持,未来将提供全面的容器日志采集平台化支持,参见《KnowAgent一站式日志采集平台介绍》展望部分。

1.2 快速体验地址

1.3 用户体验地图

  • 我的工作台
    • 运营大盘:展示运营相关的核心指标数据。
    • 运维大盘:展示运维相关的核心指标数据。
  • 元数据中心
    • 应用管理:维护应用相关信息、与应用-主机关联关系。
    • 接收端管理:维护 Agent 数据流、指标流、错误日志流的数据需要写入的下游接收端相关信息。
    • 元数据管理:维护用户上传的元数据 Excel 文件(元数据 Excel 文件内容含主机与应用信息),并提供元数据文件内容预览、元数据导入功能。
  • Agent 中心
    • Agent 版本管理:维护各个版本的 Agent 安装包信息。
    • Agent 管理:维护主机相关信息与 Agent 配置、查看 Agent 健康度与故障原因(健康度为黄或红时显示故障原因)。Agent 启动后,将携带宿主机信息自动向管理平台进行注册,注册成功后,即可对其进行管理。
  • 采集任务管理:维护采集任务相关信息,查看采集任务健康度与故障原因(健康度为黄或红时显示故障原因)。
  • 监控中心:
    • Agent 指标看板:查看 Agent 运行时全景指标(含:系统、进程、与 Agent 自身业务指标)。
    • 采集任务指标看板:用于查看采集任务在各个主机上的运行时全景指标。
  • 运维中心
    • 指标探查:查看 Agent 与采集任务的运行时全景指标,支持多 Agent、多采集任务进行对比分析、一体化观测。

1.4 核心优势

一站式日志采集方案

​ 高可靠、高性能、具备全方位可观测性的采集引擎,与面向应用的易管控、易观测、易治理的管理平台,大幅降低日志数据采集接入成本,大幅提升日志数据采集接入效率。

易融入流式计算

​ 面向应用的采集任务、高可靠的采集引擎可确保在任意情况下的数据完整性、完善的监控指标,支撑可靠的采集任务的数据完整性校验,这使得采集任务可作为流式计算的一种可靠的数据源,形成整个流式计算链路的数据完整性闭环。

生产级特性

​ 经过长时间在各场景下大规模采集引擎集群运维沉淀的专家经验,形成了全方位的可观测性与完善的故障、风险感知与诊断能力,使较少的无需采集引擎先验知识的普通运维人员亦能轻松运维庞大的采集引擎集群。

高性能

​ 优异的持续采集性能,基于jdk11+,处理单行、单文件、无解析场景下发送日志数据至kafka,持续吞吐量可达100MB/s以上,极限吞吐量可达150MB/s以上,CPU限制单核情况下,持续吞吐量可达40MB/s以上。

同类对比

维度 Flume FileBeat Logi-Agent
可靠性 一般 一般 高可靠
采集性能 Mb级 十Mb级 百Mb级
数据完整性 无法确保数据完整性 无法确保数据完整性 可确保数据完整性
采集任务级的租户隔离 无法做到采集任务级的租户隔离 无法做到采集任务级的租户隔离 可做到采集任务级的租户隔离
可扩展性 良好 一般 一般
资源消耗 CPU消耗与FileBeat趋近(大采集量场景下CPU消耗较FileBeat更小),内存消耗较FileBeat略大(但在一个数量级上)
监控指标的完善程度 较少指标 较少指标 完善的指标体系
可观测性 具备全方位的可观测性
是否容易配置
大规模运维复杂度 极高 极高

1.5 KnowAgent 架构

KnowAgent 是一站式的日志采集平台,包括两个组件:

  • Agent:是基于 Java 的高性能、支持多租户隔离的采集引擎,它能在任意情况下(除:待采集数据在被采集前被移除,例如:日志文件被归档或日志文件滚动速度太快导致)保证采集数据的完整性,持续采集速度可达150MB+/秒。
  • Agent Manager:是针对 Agent 的管理平台。用于管理相关元数据、Agent与采集任务,自动巡检 Agent 与采集任务的健康度、故障诊断,指标展示。

KnowAgent架构

1.5.1 Agent 架构

Agent架构

1.5.2 Agent Manager 架构

AgentManager架构

2 相关文档

2.1 产品文档

《KnowAgent一站式日志采集平台介绍》

《快速搭建一站式KnowAgent体验环境》

《KnowAgent安装部署手册》

《KnowAgent用户使用手册》

《KnowAgent开发手册》

《如何替换Agent的Metrics与Error Logs数据存储引擎以纳管更大的Agent集群》

《KnowAgent代码贡献指南》

《KnowAgent常见问题》

3 KnowAgent开源用户交流群

​ 请添加微信号:mike_zhangliang 或 WilliamHu66,回复”KnowAgent 加群“。

4 协议

KnowAgent基于Apache-2.0协议进行分发和使用,更多信息参见协议文件

More Repositories

1

DoKit

一款面向泛前端产品研发全生命周期的效率平台。
Java
19,956
star
2

cube-ui

🔶 A fantastic mobile ui lib implement by Vue
JavaScript
9,110
star
3

chameleon

🦎 一套代码运行多端,一端所见即多端所见
JavaScript
9,024
star
4

VirtualAPK

A powerful and lightweight plugin framework for Android
Java
8,949
star
5

LogicFlow

A flow chart editing framework focusing on business customization. 专注于业务自定义的流程图编辑框架,支持实现脑图、ER图、UML、工作流等各种图编辑场景。
TypeScript
6,812
star
6

KnowStreaming

一站式云原生实时流数据平台,通过0侵入、插件化构建企业级Kafka服务,极大降低操作、存储和管理实时流数据门槛
Java
6,747
star
7

booster

🚀Optimizer for mobile applications
Kotlin
4,752
star
8

nightingale

An enterprise-level cloud-native monitoring system, which can be used as drop-in replacement of Prometheus for alerting and management.
Go
4,510
star
9

mpx

Mpx,一款具有优秀开发体验和深度性能优化的增强型跨端小程序框架
JavaScript
3,531
star
10

mand-mobile

💰 A mobile UI toolkit, based on Vue.js 2, designed for financial scenarios.
Vue
3,429
star
11

sharingan

Sharingan(写轮眼)是一个基于golang的流量录制回放工具,适合项目重构、回归测试等。
Go
2,182
star
12

tinyid

ID Generator id生成器 分布式id生成系统,简单易用、高性能、高可用的id生成系统
Java
2,071
star
13

ChineseNLP

Datasets, SOTA results of every fields of Chinese NLP
HTML
1,767
star
14

DiDiPrism

小桔棱镜,一款专注移动端操作行为的利器! A powerful tool (iOS & Android) that focuses on mobile operation behavior!
Objective-C
1,699
star
15

gendry

a golang library for sql builder
Go
1,500
star
16

DDMQ

DDMQ is a distributed messaging product with low latency, high throughput and high availability.
Java
1,286
star
17

Hummer

一套移动端高性能高可用的动态化跨端开发框架
Objective-C
1,283
star
18

rdebug

Rdebug — Real Debugger
PHP
1,155
star
19

echo

Echo是一款桌面端调试工具,旨在提高客户端的研发调试效率
Objective-C
1,022
star
20

DroidAssist

A lightweight Android Studio gradle plugin based on Javassist for editing bytecode in Android.
Java
881
star
21

AoE

AoE (AI on Edge,终端智能,边缘计算) 是一个终端侧AI集成运行时环境 (IRE),帮助开发者提升效率。
C++
870
star
22

turbo

Turbo is a light-weight flow engine framework, support BPMN2.0. 一款轻量级流程引擎服务框架,可作为底层服务支持各类流程设计、低代码设计、工作流、服务编排等场景
Java
798
star
23

DRouter

Android Router Framework
Java
711
star
24

AgileTC

AgileTC is an agile test case management platform
JavaScript
642
star
25

falcon-log-agent

用于监控系统的日志采集agent,可无缝对接open-falcon
Go
554
star
26

epage

一款基于schema的低代码可视化页面配置工具
Vue
441
star
27

super-jacoco

Java
430
star
28

GateKeeper

A high-performance Golang gateway that supports rapid development and plug-inization
Go
428
star
29

sds

SDS是一个基于Java开发的简单、易用、高性能的服务降级系统,支持限流、熔断和降级等功能,服务端必备!!
Java
406
star
30

KnowSearch

面向Elasticsearch研发与运维人员,围绕集群、索引构建的零侵入、多租户的Elasticsearch GUI管控平台
Java
377
star
31

kemon

An Open-Source Pre and Post Callback-Based Framework for macOS Kernel Monitoring.
C
368
star
32

di18n

一种自动转换、基于配置的前端国际化方案
JavaScript
286
star
33

pile.js

pile.js components build with React.
CSS
267
star
34

ES-Fastloader

Quickly build large-scale ElasticSearch indices by using the fault tolerance and parallelism of Hadoop
Java
259
star
35

LogiCommon

Java版 认证、鉴权、管理、任务调度通用功能组件
Java
213
star
36

Tips

JavaScript
187
star
37

maskdetection

C++
179
star
38

xiaoju-survey

「快速」打造「专属」问卷系统, 让调研「更轻松」
Vue
167
star
39

DreamBox

DreamBox是一个为客户端开发者打造的统一视图开发框架,具有性能好、可动态更新的特点
Java
165
star
40

dlflow

DLFlow is a deep learning framework.
Python
156
star
41

hetsann

Source Codes of HetSANN in the AAAI'20 paper: An Attention-based Graph Nerual Network for Heterogeneous Structural Learning.
Python
140
star
42

collection

go collection package for fasting coding
Go
127
star
43

didi.github.io

didi website
HTML
125
star
44

athena

A release version for https://github.com/athena-team/athena
Python
123
star
45

JuShaTa

JuShaTa是一个Java容器,提供模块隔离及模块热加载能力。
Java
114
star
46

logbook

Java
108
star
47

levin

A Quick Way to Bulk Loading
C++
104
star
48

heteta

HetETA: Heterogeneous Information Network Embedding for Estimating Time of Arrival
Python
101
star
49

thrift-mock

A lightweight java test library for mocking thrift server
Java
90
star
50

mand-mobile-rn

💰 Mand Mobile for React Native, designed for financial scenarios.
TypeScript
87
star
51

TrafficIndex

TTI ,Smart Transportation Industry Standard
C++
85
star
52

slime-validator

JavaScript library of validation based on Plugin system and make data validation be easy.
JavaScript
85
star
53

vue-tmap

一个基于腾讯地图JavaScript API GL、TypeScript 封装适用于 Vue3 的高性能地图组件库
TypeScript
81
star
54

mtmc-vt

MTMC Vehicle Tracking For AI City challenge 2019
Jupyter Notebook
69
star
55

sgt

didiyun super-agent daemon
Go
57
star
56

FeatureProbe

开源的高效可视化『功能』管理平台,提供灰度发布、AB实验、配置变更全功能。
53
star
57

ALITA

ALITA is a layer-based data analysis tool. The front-end see
Java
50
star
58

react-tmap

一个基于腾讯地图JavaScript API GL、TypeScript 封装适用于 react 的高性能地图组件库
TypeScript
45
star
59

benchmark-thrift

An open source application designed to load test Thrift applications
Java
44
star
60

elastic-trib

elasticsearch cluster command line tool.
Go
39
star
61

mpx-cube-ui

基于"Mpx 小程序框架"的移动端基础组件库
TypeScript
25
star
62

yarc

基于 eBPF 的流量录制工具
C
24
star
63

paladin

Scala
20
star
64

MEEP

End-to-end framework to build automatic agents (chatbots) for task-oriented dialogs
Python
18
star
65

tg-flow

Go
18
star
66

Unify

Dart
15
star
67

ALITA_UI

ALITA is a layer-based data analysis tool. The back-end see
JavaScript
13
star
68

wmt2021_triangular_mt

The baseline model code for WMT 2021 Triangular MT
Python
13
star
69

MeetDot

Python
11
star
70

DAIBench

Shell
10
star
71

WorkTrans

Python
10
star
72

didi-tech-edu

9
star
73

daedalus

JavaScript
6
star
74

tmap-types

腾讯地图 js api 类型声明,主要用于 react-tmap 和 vue-tmap 组件库
4
star
75

Json-adapter

Java
3
star