? openfalcon+grafana安装配置手册及注意事项_牛聚文档

openfalcon+grafana安装配置手册及注意事项

openfalcon+grafana安装配置手册及注意事项
预览:

Open-falcon 安装配置手册

1.open-falcon 介绍

监控系统是整个运维环节,乃至整个产品生命周期中最重要的一环,事前 及时预警发现故障,事后提供翔实的数据用于追查定位问题。监控系统作为一 个成熟的运维产品,业界有很多开源的实现可供选择。当公司刚刚起步,业务 规模较小,运维团队也刚刚建立的初期,选择一款开源的监控系统,是一个省 时省力,效率最高的方案。之后,随着业务规模的持续快速增长,监控的对象 也越来越多,越来越复杂,监控系统的使用对象也从最初少数的几个 SRE ,扩 大为更多的 DEVS , SRE 。这时候,监控系统的容量和用户的“使用效率”成了 最为突出的问题。

监控系统业界有很多杰出的开源监控系统。 我们在早期, 一直在用 zabbix , 不过随着业务的快速发展,以及互联网公司特有的一些需求,现有的开源的监 控系统在性能、扩展性、和用户的使用效率方面,已经无法支撑了。因此,我 们在过去的一年里,从互联网公司的一些需求出发,从各位 SRE 、 SA 、 DEVS 的 使用经验和反馈出发,结合业界的一些大的互联网公司做监控,用监控的一些 思考出发,设计开发了小米的监控系统:open-falcon 。

open-falcon 的目标是做最开放、最好用的互联网企业级监控产品。 产品特点:

强大灵活的数据采集:自动发现,支持 falcon-agent 、 snmp 、支持用户主 动 push 、用户自定义插件支持、 opentsdb data model like(timestamp 、 endpoint 、 metric 、 key-value tags)

水平扩展能力:支持每个周期上亿次的数据采集、告警判定、历史数据存 储和查询

高效率的告警策略管理:高效的 portal 、 支持策略模板、 模板继承和覆盖、 多种告警方式、支持 callback 调用

人性化的告警设置:最大告警次数、 告警级别、 告警恢复通知、 告警暂停、 不同时段不同阈值、支持维护周期

高效率的 graph 组件:单机支撑 200万 metric 的上报、归档、存储(周 期为 1分钟)

高效的历史数据 query 组件:采用 rrdtool 的数据归档策略,秒级返回上 百个 metric 一年的历史数据

第1页/共42页 下一页>尾页