当前位置：移动技术网 > IT编程>软件设计>架构 > 大型互联网系统的监控流水线

大型互联网系统的监控流水线

2018年02月07日 | 移动技术网IT编程 | 我要评论

大型互联网的系统一般会架构散布于多个数据中心和一些私有/公有云，由真实物理机以及虚拟机组成。架构中部署的关键工具包括实现报警的Zabbix，以及一个采集、聚合和存储度量的六阶段流水线。流水线主要由开源工具构建，其中使用了OpenTSDB、Kafka、Elasticsearch和Grafana，还有一些企业自研的工具。

监控的一些关键度量，包括CPU平均负载、内存、线程、网络连接、磁盘空间和性能等。对于电子商务网站而言，网络监控至关重要。网络监控实现为多个层级，包括使用ping监控跨数据中心的连通性，使用Observium监控网络设备带宽，使用Uptime Robot监控外部可访问性和系统运行时间及负载情况（uptime）。监控的实现原理通常分为两大类，即拉取模式（Pull）和推送模式（Push）。在拉取模式下，存在一个集中式系统，轮询各个被监控系统并从中拉取数据。Nagios等多种传统的监控系统主要遵循该模式，但是其中部分系统也提供推送模块。在推送模式下，每个被监控系统中需要运行一个代理程序。该代理程序采集监控数据，并将数据推送到一个中央系统。Prometheus等工具使用了推送模式，它们提供推送功能选项。团队选择使用推送模式，并在每台服务器上运行了Zabbix代理。Grafana做为可视化工具。

监控流水线分六个阶段，实现从日志中抽取度量并推送到时序数据库OpenTSDB。

第一个阶段负责收集日志。流水线通过运行在每个服务器上的syslog-ng代理，以UDP方式汇集到一个中央Logstash服务器。syslog-ng可在类UNIX系统上实现syslog协议。
第二阶段进而使用grok分析器分析收集的日志，并推送到两个不同的Elasticsearch（ELS）集群。每天分析的日志总量可达700GB。
第三阶段使用称为“Data Monster”的企业自研工具(Django-Python)，周期性轮询Elasticsearch集群，从中抽取度量。
第四阶段使用调度系统计算各个度量。该调度系统基于Celery Beat、RabbitMQ和MySQL实现，使用Data Monster从ELS拉取数据，并推送到Kafka集群。
第五阶段生成实际写入到OpenTSDB的PUT语句。Apache Kafka通常用于构建持久化流数据队列。在流水线中，Kafka消费者处理消息，并推送到OpenTSDB中持久存储。
第六阶段使用Grafana查询数据库中的消息，生成可视化的仪表盘展示。

架构使用了Zabbix生成报警。此外为保证高可靠性，OpenTSDB是安装在多个节点上的。

在云环境中，机器的生命周期是短暂的，这对于需要掌握被监控机器的监视工具而言是一个挑战。通过使用Zabbix的自动注册功能解决了这一问题。Zabbix支持使用模板注册一个新机器。团队使用了一种基本的Linux模板，用于CPU使用率、平均负载、Java线程等通用系统度量。还使用了一种特定于应用的模板，用于健康检查和应用性能管理。

关键关注点还包括，如何确定实时监控下的度量粒度问题，以及如何对HTTP响应代码和请求趋势等度量进行近距离观察。前者可支持团队快速地响应并定位问题，后者可作为一种早期预警系统，对客户或服务器端错误和应用性能突发问题做出预警。对请求数量变化趋势的深入研究，也有助于团队进一步规划容量。

－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

今天先到这儿,希望对您在系统架构设计与评估，团队管理, 项目管理, 产品管理,团队建设有参考作用 , 您可能感兴趣的文章:

如有想了解更多软件设计与架构, 系统IT,企业信息化, 团队管理资讯，请关注我的微信订阅号：

作者：
出处：
本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。
该文章也同时发布在我的独立博客中-。

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

12.pytest_mark标记测试用例

pytest可以支持自定义标记，自定义标记可以把一个web项目划分多个模块，然后指定模块名称执行。一个大项目自动... [阅读全文]
开篇：性能问题的现状

性能问题的现状性能优化？是不是感觉这个词很高大上？刚工作2、3年的程序员甚至觉得学此技能有点早？真的是这样吗？“... [阅读全文]
7.16总结（维信小程序开发）

今天正式要做一个体育场地预约系统，用微信小程序云开发，想用博客来做一个完整的项目进展记录，记录每天的成果与收获。... [阅读全文]
ExaGrid报告显示新冠疫情期间季度业绩仍表现强劲

新客户获取表现强劲，交易额达到六至七位数。马萨诸塞州马尔伯勒--(美国商业资讯)--分层备份存储领先提供商Exa... [阅读全文]
分布式架构系列 - 分布式事务 01（基础篇）

阅读全文，约 10分钟这是江帅帅的第027篇文章1、什么是事务？一般的事务，指的是本地事务，单机上的事务。事务提... [阅读全文]
开源消息队列QMQ的设计与实现理念

文章概要背景2012 年，随着公司业务的快速增长，公司当时的单体应用架构很难满足业务快速增长的要求，和其他... [阅读全文]
闪存的物理结构

闪存芯片从小到大依此是由：cell（单元）、page（页）、block（块）、plane（平面）、die（核心）... [阅读全文]
Saas、Paas、IaaS的区别

定义层面SaaS、PaaS、IaaS都是属于云计算服务的范畴，也就是云计算+服务。来自Wiki的解释为: Cou... [阅读全文]
pomelo源码解析之组件解析（四）

文章目录消息处理组件server过滤器globalFilterService、filterService处理消息... [阅读全文]
Nginx日志细节处理

文章目录Nginx 日志处理过滤冗杂日志使用官网默认模块 `ngx_http_map_module`过滤指定 U... [阅读全文]

网友评论


验证码：

大型互联网系统的监控流水线

2018年02月07日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论