1. 集群聚合

集群监控的本质是一个聚合功能。

单台机器的监控指标难以反应整个集群的情况，我们需要把整个集群的机器（体现为某个HostGroup下的机器）综合起来看。比如所有机器的qps加和才是整个集群的qps，所有机器的request_fail数量 ÷ 所有机器的request_total数量=整个集群的请求失败率。

我们计算出集群的某个整体指标之后，也会有“查看该指标的历史趋势图” “为该指标配置报警” 这种需求，故而，我们会把这个指标重新push回监控server端，于是，你就可以把它当成一个普通监控数据来对待了。

背景交代清楚了……现在来介绍我们的实现……

首先，用户要在某个HostGroup下去添加集群聚合规则，我们就知道这个规则涵盖的机器是当前这个HostGroup下的机器。

其次，整个集群的指标计算是一个除法，除法的话就有分子，有分母。上面提到的“所有机器的qps加和才是整个集群的qps” 这个场景中每个机器应该有个qps的counter，每个counter在书写的时候要求用$()包裹起来，故而，分子可以这么描述：$(qps/module=judge,project=falcon)，分母就填写 1 就行了。

对于上面所述场景二：“所有机器的request_fail数量 ÷ 所有机器的request_total数量=整个集群的请求失败率” 分子就是：$(request_fail/module=graph,project=falcon) 分母就是：$(request_total/module=graph,project=falcon)

另外，对于分子和分母，我们是支持加减计算的，不过不支持除法、乘法、括号，举个没意义的分母：$(cpu.idle) + $(cpu.busy)，可以两个counter相加

分母和分母不但支持配置counter，也支持配置成纯数字，支持配置 $#，$#在shell编程中是参数个数的意思，我们这里也类似。比如我们这样的配置：

xbox节点：cop.xiaomi_owt.inf_pdl.falcon_service.judge
分子：$(qps/module=judge,project=falcon)
分母：$#

对于分子而言，我们就会拿着HostGroup下的所有机器去query这个counter的最新值，然后把所有值相加（不同机器计算出来的分子要相加），但是有的机器可能查不到数据，$#表示的是正常查到数据的机器数量。整个表达式假设涉及到3个counter，对某个机器而言，必须3个counter都查到数据才被使用，只要有一个counter没有查到数据，那就忽略这个机器。

注意：分子、分母中至少配置一个counter，不能都配置成纯数字或$#，因为这种配置是没啥意义的。除了配置分子、分母之外，还有很多其他配置，比如endpoint、metric、tags、step等等，这些是为了把数据重新push回监控server的时候用的。监控的数据有好几个字段，缺一不可，我们可以计算出集群监控指标的value和时间戳，但是无法自动填充endpoint、metric、tags、step等字段，所以，仍然要用户手工填写。

1.1. 用户手册

使用集群聚合监控，需要进行两个配置: cluster配置和策略配置。下面，我们以一个例子，讲述如何使用集群聚合监控提供的服务。

1.1.1. 用户需求

获取节点cop.xiaomi_owt.inf_pdl.falcon_service.judge下所有机器的$(cpu.idle)-$(cpu.nice)-$(cpu.guest)的平均值，达到阈值后通知给用户。

1.1.2. Cluster monitor配置

访问portal服务，搜索节点cop.xiaomi_owt.inf_pdl.falcon_service.judge，点击后面的aggregator链接，进入当前节点对应的aggregator列表，如下图所示： aggregator.config

点击右上角的“新建”按钮，可进入aggregator编辑页面，如下图所示： aggregator.edit

1.1.3. 策略配置

配置了cluster monitor后，如果想收到关于聚合的值的报警，需要在节点绑定的模板里面配下监控策略： aggregator.edit