您好、欢迎来到现金彩票网!
当前位置:红黑大战作弊器助手 > 运维 >

则标记为告警信息

发布时间:2019-08-28 15:03 来源:未知 编辑:admin

  还是用业务场景来解释该特点:某主机上运行了一个mysql实例,若该主机宕机,则会收到多条关于mysql各项监控的告警信息,但如果配置了抑制用法,只要触发该主机的宕机告警,上面mysql所触发的告警便会被抑制掉。

  可以用一个业务场景来解释该特点:某大数据集群由于网络问题大面积瘫痪,上百个datanode触发断开告警,如果按照传统监控模式的话,收到的将是上百条的告警短信形成短信轰炸。但如果使用分组特性,Alertmanager会将具有共同属性的告警归为一条发送到接收端,清晰明了。

  基于上图,大家可以清晰的看到,Prometheus实际上是一个tsdb型数据库,所有的采集数据以metric的形式保存在其中,且能够将数据落到本地磁盘中,供使用人员二次查询数据。

  运维人员常用的发送告警工具有短信、邮件、企业微信和钉钉,之所以选择钉钉的原因如下:

  运维人员常用的发送告警工具有短信、邮件、企业微信和钉钉,之所以选择钉钉的原因如下:

  Prometheus同时附加了强大的计算与分析功能,能够利用各种labels与promql语句来完成多维度的监控数据查询,从而为故障排查与问题定位提供可靠的证据。

  那么是否可以这么理解:对于常见组件(redis、mysql、nginx、haproxy等),我们可以依靠现有的丰富client库,直接进行监控纳管;对于一些特殊组件或自定义业务,可通过多语言脚本采集监控数据或业务埋点方式,把Pushgateway作为一个data_collector来收集各方数据,从而完成监控纳管。

  - 钉钉:有强大的分组功能且不限制告警条数;可按项目创建告警群,也方便解除。

  下图中以一个简单例子说明:该条查询可以看到某集群接口机15分钟内的系统负载,涉及到的标签维度为集群、主机IP、主机类型等。在实际线上环境中,还可以添加多个标签来完成查询,并且可以利用promql特有的查询语句(sum、count_values、topk等)来完成更加丰富的多维度查询,提供可靠、便捷、直观的监控数据供运维人员使用。

  - 企业微信:企业微信不存在短信网关的并发限制,但弊端在于告警条数有限。

  - 短信:一般是通过往oracle插入告警信息走短信网关发送;优点是及时高效,但缺点是oracle支持的并发量有限。

  在上一篇文章【一篇运维老司机的大数据平台监控宝典(1)】中,我们介绍了目前联通大数据监控平台由Grafana+Influxdb+Prometheus+Alertmanager等组件组成,并且着重详述了以Grafana为核心的图形化展示功能。

  - 短信:一般是通过往oracle插入告警信息走短信网关发送;优点是及时高效,但缺点是oracle支持的并发量有限。

  在拓展性方面,Prometheus可以轻松的完成服务发现功能,并拥有每秒上万数据点的监控数据收集与分析的处理能力,完全摆脱了传统监控系统对监控主机数量的要求。目前联通大数据平台机器几千余台,监控实例过十万,监控实例指标过千万,Prometheus优良的性能可以做到完美支撑。

  - 邮件:邮件告警的及时性是一个很大的问题,并且如果没有合理设置阈值

关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有