Vector:Netflix的主机性能监控工具
Vector是一个开源的主机级性能监控框架,它向每个工程师的浏览器公开了精心挑选的、高分辨率的系统和应用程序指标。要理解系统的行为以及正确地排除性能问题,关键是要根据需要提供正确的度量标准,并且具有高分辨率。在此之前,我们将根据需要登录到实例,运行各种命令,并在输出中筛选重要的指标。Vector减少了获取这些度量的时间,帮助我们更快地响应事件。Vector为用户提供了一种简单的方法来可视化和分析系统和应用程序级的指标,几乎是实时的。它利用了经过测试的开放源码系统监控框架、Performance Co-Pilot (PCP)[https://pcp.io],以及一个灵活的用户界面。UI以1秒的分辨率轮询指标,将数据呈现在完全可配置的仪表板中,从而简化了交叉指标的相关性和分析。PCP的无状态模型使其轻量级且健壮。它在主机上的开销可以忽略不计,因为客户机负责跟踪状态、采样率和计算。此外,度量不会跨主机聚合,也不会在用户的浏览器会话之外持久化,从而保持框架的简洁。Vector只需要在希望监视的主机上安装本地浏览器和PCP。不需要中间收集器、服务器或数据库基础设施。
我们很高兴向社区发布Vector[https://github.com/Netflix/vector],并期待反馈和合作。
High-Level Architecture(高级体系结构)
Vector本身是一个完全在用户浏览器中运行的web应用程序。它是用AngularJS[https://angularjs.org/]构建的,并利用D3.js[http://d3js.org/]制作图表。在未来,Vector包还将包括定制的度量代理。
Vector在启动时公开了一个"默认"仪表板。这个仪表板是一个简单的页面,包含几个选项,包括UI对象可见性标志、小部件定义和一组加载的小部件。一旦加载,它将显示加载的小部件集,并向用户显示包含任何额外预定义小部件的控件。
小部件加载到仪表板中。小部件对象将包含关于特定小部件的详细信息,比如它的名称、模板、样式,更重要的是要使用的数据模型。简单地说,数据模型是控制每个小部件所需的度量和值在其中如何使用的对象。数据模型原型相对简单。它们扩展基本的WidgetDataModel原型,并定义自己的init和destroy函数。这些函数中的大部分工作是从度量轮询器列表中添加和删除度量,创建回调函数来处理从轮询器本身返回的数据点,并引用要在图表中使用的正确数据结构。
还创建了通用数据模型,这样它们就可以在新的小部件上重用,而不必为其创建特定的数据模型。有关数据模型的更多细节可以在Vector的wiki页面上找到。
指标从Performance Co-Pilot的web守护进程中轮询。它们由惟一的名称引用,并返回带有时间戳的当前值,以便对它们进行规范化。Vector使用两个数据结构来存储指标及其值。"原始"度量数据结构保存来自PCP的原始度量值。"派生"度量数据结构包含由数据模型函数(如累积函数或标准化函数)修改的度量。
度规轮询器是检查"原始"度规列表的组件,给定选定的轮询间隔,从PCP通过HTTP轮询它们。它还执行所有数据模型函数,从而更新"派生"的度量数据结构。每次更新数据结构时,图表都会自动更新。
Performance Co-Pilot (PCP)是一个系统性能分析框架。它提供度量代理、度量收集器和web守护进程,度量轮询器利用这些守护进程来收集度量值。有关PCP的更多细节可以在pc .io上找到。
Getting Started
为了开始,您应该首先在计划监视的每个主机上安装Performance Co-Pilot (PCP)。PCP将收集这些指标,并将它们提供给Vector。需要在每个主机上运行pmcd和pmwebd服务,后者需要公开其tcp/44323网络端口。
还可以安装可选的监视代理,以便收集PCP的系统代理不支持的特定指标。
一旦安装了PCP,您应该能够运行Vector并连接到目标主机。
Performance Co-Pilot (PCP)
Vector依赖于Performance Co-Pilot (PCP)来收集计划监视的每个主机上的指标。
由于Vector依赖于3.10或更高版本,所以目前大多数Linux发行版存储库中可用的包还不够。在储存库中提供较新的版本之前,您应该能够从PCP开发团队提供的二进制包中安装PCP:
或者从头开始构建。为此,获取源代码的当前版本:
$ git clone git://git.pcp.io/pcp
然后构建和安装:
$ cd pcp $ ./configure — prefix=/usr — sysconfdir=/etc — localstatedir=/var $ make $ sudo make install
关于如何安装的更多信息在:
Vector
Vector是一个运行在客户机浏览器内的静态web应用程序。它可以在本地运行,也可以部署到任何可用的HTTP服务器上,比如Apache或Nginx。
要在本地运行,首先克隆仓库:
确保在系统上安装了Bower。Bower是一个面向客户端编程的包管理系统,针对前端开发进行了优化。
安装依赖:
$ cd vector$ bower install
你可以用Gulp运行Vector。Gulp是一个自动化的任务运行器,包括一个带有实时重载的开发web服务器。为了启动Gulp的web服务器,首先要确保你的系统上安装了Gulp:
然后,安装所有依赖项并执行默认的Gulp任务:
$ npm install $ gulp
你也可以用Python的SimpleHTTPServer运行Vector:
$ cd vector/app $ python -m SimpleHTTPServer 8080
然后在浏览器上打开Vector:
并从计划监视的服务器输入主机名。就是这样!
小部件和仪表板
Vector的UI基于仪表板和小部件。每个浏览器选项卡/窗口可以有一个仪表板。仪表板是完全可配置的,可以有多个小部件 。仪表板可以包含的小部件数量没有限制,但是多个图表的实时呈现会消耗大量CPU并降低应用程序的速度。目前,对仪表板所做的更改不会持久。
窗口和间隔
Vector的UI目标是非常简单。除了主机名之外,只有两个配置选项,window和interval。窗口选项允许用户为仪表板中的所有小部件选择滚动窗口大小(以分钟为单位)。interval选项允许用户选择以秒为单位表示的度量轮询间隔。如果仪表板中有许多小部件,并且应用程序开始显示速度变慢的迹象,则应该能够减小窗口大小和/或增加间隔以降低CPU利用率。
仪表板和小部件
Vector附带一组预定义的小部件和仪表板,可以轻松地扩展它们。下面是默认情况下可用的度量标准的简短列表。
CPU
· Load Average
· Runnable
· CPU Utilization
· Per-CPU Utilization
· Context Switches
Memory
· Memory Utilization
· Page Faults
Disk
· Disk IOPS
· Disk Throughput
· Disk Utilization
· Disk Latency
Network
· Network Drops
· TCP Retransmits
· TCP Connections
· Network Throughput
· Network Packets
目前,Vector上只有两个预配置的仪表板。"默认"仪表板,包括一组常用的小部件和一个空的仪表板。要更改仪表板,请单击"widget"下拉菜单并选择所需的仪表板。
TO-DO
· More widgets and dashboards(更多的小部件和仪表盘)
· User-defined dashboards(用户自定义仪表盘)
· Metric snapshots(Metric 快照)
· CPU Flame Graphs(CPU的火焰图)
· Disk Latency Heat Maps(磁盘延迟热图)
· Integration with Servo(与Servo整合)
· Support for Cassandra(支持Cassandra)
结论
可观察性是理解应用程序在特定条件下的行为方式的关键,也是成功排除任何性能问题的关键。Vector允许我们密切监视主机,几乎是实时的,并且很容易将指标关联起来,使每个工程师都可以访问它们,从而简化了问题的故障排除过程。它被证明是一个宝贵的工具,以帮助我们取得伟大的业绩,我们计划继续建设和改善它!
你可以在GitHub和netflix.github.io上找到Vector !
ref:https://medium.com/netflix-techblog/introducing-vector-netflixs-on-host-performance-monitoring-tool-c0d3058c3f6f