目录

  • 一、引言

  • 二、容量类KPI

  • 三、成本类KPI

  • 四、资产类KPI

  • 五、变更类KPI

  • 六、空间类KPI

  • 七、电力类KPI

  • 八、能效类KPI

  • 九、制冷类KPI

  • 十、连接类KPI

  • 十一、结语

一、引言

现代数据中心管理者始终面临事半功倍的压力,同时被要求最大化运行时间、优化能效与容量利用率。在当今不断变化的数据中心环境中,高效的数据监测系统为应对这些挑战提供了关键竞争优势。

为了衡量成功与否并确保达成业务目标,数据中心管理者日益依赖大数据分析来提供必要信息。但由于数据中心设备产生的数据量巨大且种类繁多,他们并不总是有时间或受过专门培训来收集、分析这些数据并最终从中获取价值。此外,当使用ExcelVisio等传统工具时,根本无法全面查看和分析这些数据。

那么,您如何知道从何处着手、跟踪哪些内容以及目标应如何设定?基于与数据中心基础设施管理解决方案全球用户群中数百名客户的交流,笔者整合了关于哪些数据最为重要的反馈,并编制了这份包含40个关键绩效指标的清单。所有数据中心管理者都应监控这些KPI,以提升其数据中心的整体健康度与效率。

如果这份清单看起来令人望而生畏,请了解借助合适的DCIM软件,测量这些KPI其实轻而易举。事实上,通过现代化的DCIM解决方案,许多KPI可直接通过开箱即用的仪表板小部件和报告呈现,无需任何配置。

二、容量类KPI

1按关键数据中心资源划分的容量(空间、电力、制冷、网络端口连接)

拥有关于数据中心物理空间、电力、制冷和网络连接容量的准确、可靠、实时信息,对于在您需要预留空间和部署新IT设备、更高效地使用电力资源、节省运营支出或说服管理层需要增加容量时,做出最明智、数据驱动的决策至关重要。能够在站点、楼层和机柜级别监控实时容量,可极大简化您查找和预留资源的方式。

2按逻辑组划分的容量(按功能、部门等划分的空间、电力、制冷、网络连接容量)

为了获得更精细的视图,不仅按数据中心资源,而且按功能、部门、业务单元和客户等逻辑组来规划和管理您的容量。数据中心项目通常根据这些逻辑组进行分配;因此,您应监控每个组的容量利用率以正确分配资源。

3每机柜的闲置电力容量

数据中心管理者通常会为每个机柜分配比IT设备实际需求更多的电力。这导致产生闲置电力,这些电力可部署在数据中心的其它地方以节省成本。对于单个机柜而言,几千瓦的闲置电力可能微不足道,但当考虑到成百上千个机柜时,闲置电力可能占到所有可用电力的50%之多。监控数据中心的电力消耗以识别闲置容量。然后,放心地部署这些电力,并延迟花费数百万资金建设下一个数据中心。

4假设情景分析

针对空间和电力容量的假设情景分析图表,可以帮助您了解数据中心变更(尤其是新增和退役)带来的潜在净影响,而不会影响在用设备。基于每个项目进行假设情景分析,使您能够灵活地将相同设备以不同的组合和位置添加到多个项目中,从而更好地确定何时会耗尽容量以及可以延迟资本支出多长时间。

5政策合规性

各地都有相应的政策要求,如数据中心内必须:具备电力计量;PUE小于或等于1.5(新建数据中心为1.4);操作系统完全虚拟化比例至少达到4:1;服务器利用率至少达到65%;总地板面积中至少有80%的活跃区域用于放置至少包含一台物理服务器的机柜等等。

6高架地板的承重容量

高架地板允许地板下送风、冷冻水管道铺设、线缆管理以及防水/防洪保护。对于标准活动地板,面板载荷等级通常在1,0002,000磅之间。了解数据中心高架地板系统的承重容量,并监控机柜和设备的总重量,以确保未超出容量限制,并拥有部署新设备的承重余量。

三、成本类KPI

7数据中心能源成本

IDC报告显示,由于性能提升推动能源需求,全球每台服务器的能耗正以每年9%的速度增长。能源消耗成本可占数据中心总运营支出的50%之多,因此需要对其进行监控并智能地降低。按站点、部门或应用/服务跟踪能耗和成本,设定降低消耗、向用户计费、满足企业可持续发展和绿色倡议、获取能源回扣和碳积分等目标。

8每客户成本

向客户出租电力、空间、制冷和网络资源的托管数据中心,需要逐一了解每位客户的成本,以便确定其定价。应针对每位客户监控IT设备和制冷所需电力、每平方空间成本、互联网和交叉连接费用,以确保定价在保持盈利的同时仍具竞争力。

四、资产类KPI

9资产使用时长(月数)

监控数据中心所有资产的使用时长,有助于您轻松了解硬件的使用年限以及何时应开始下一个更新周期。通过机柜、PDU、数据配线架和设备等设备类型,以及购买日期、安装日期、合同起止日期等特定日期参数来筛选数据,让您全面洞察所有数据中心资产的生命周期。

10. 资产部署趋势

拥有数据中心资产数量的历史数据,可以让您了解增长速度并预测未来扩展需求。监控资产数量(安装数减去退役数),以获得数据中心随时间变化的高层视图。通过资产功能进行下,可更详细地了解数据中心的过去和未来走向。

11. 设备和现场可更换单元的可用库存

正确的IT库存管理实践对于组织有效管理系统、通过延迟购买新IT资产来节省资金是必要的。不幸的是,许多组织仍然依赖手动流程和过时的电子表格来跟踪其资产库存,由于预算有限、人员短缺以及需要覆盖的资产数量庞大,这种方式难以维护且容易出错。通过使用提供关于所有物理数据中心基础设施的可操作、实时数据的资产跟踪平台,确保您的可用库存准确无误。

五、变更类KPI

12. 按用户、阶段和类型划分的变更请求

在典型的数据中心环境中,每年有高达30%的服务器被更换,因为超过五年的服务器故障率是新服务器的三倍,且支持成本高出200%。为了在提高数据中心员工效率和生产率的同时维持SLA,简化移动、添加和变更的管理至关重要。跟踪变更请求、工单和工作单的数量、提出者、进展情况以及请求的变更类型。从创建到批准全程监控和管理您的请求,以确保工作单质量和透明度,同时通过改进协作提高员工效率。

13. 按阶段持续时间划分的变更请求

数据中心管理者需要了解从请求到完成实施一项变更所需的时间,以确保满足与客户达成的SLA。通过监控变更每个阶段(从规划到批准再到实施)所花费的时间,您将获得真实数据与SLA进行比较。如果数据中心内的变更耗时过长,您可以检查数据,找出瓶颈发生的原因和阶段。

14. 随时间推移完成的请求数量

对于数据中心管理者来说,了解数据中心正在进行多少工作非常重要。一种方法是监控一段时间内的移动、添加和变更数量。通过这种方式跟踪数据中心活动和生产率,您可以判断数据中心员工数量是否合理、更轻松地排查中断故障,并能够更准确地向客户计费。您完成的请求目标数量应相对于您的特定数据中心和设施内的人员数量而定。

15. 每人处理的变更数量

数据中心管理者依赖KPI为决策提供信息,但他们需要确信其数据准确可靠。为了获得最准确的数据,数据中心管理者必须要求团队负责正确记录他们在数据中心所做的工作。跟踪每人处理的变更数量,以确保每位员工都在输入数据、正确输入数据并且其生产率令人满意。

六、空间类KPI

16. 剩余的可用地板和机柜空间

智能的空间容量规划是驾驭数据中心扩展和优化的关键。按开放的机架单元(包括连续的机架单元)跟踪可用机柜空间,以了解空间使用效率,并关联可用于部署新设备的空间与电力容量。您还应通过开放的机柜位置跟踪可用地板空间,以了解数据中心地板上可用于部署新机柜的空白空间有多少。在报告中纳入计划中的退役和未来计划部署,以获得关于实际剩余空间容量的最准确视图。

17. 按机架单元尺寸划分的可用空间

最重要的40项数据中心核心绩效指标

了解某个位置有多少可用的机柜空间有助于跟踪效率和增长容量,但按机架单元尺寸监控可用空间(一个称为机架单元碎片化的KPI)则提供了更详细的信息。该KPI让您能够根据RU高度查看数据中心可以安装多少设备,并使您能够直观看到设备尺寸与容量之间的关系。理想情况下,随着RU高度的增加,容量会平稳下降。否则,随着设备变大,您可能会耗尽空间,因为现有空间已经碎片化为更小的RU单元。

18. 机架单元容量和使用趋势

深入了解数据中心机柜空间容量的另一种好方法是随时间推移分析该数据的趋势。一眼即可看到安装、退役和新增空间对容量增长或下降的影响,从而准确知道何时会耗尽空间容量。

19. 服务器/网络刀片机箱插槽使用率

刀片服务器通过模块化设计且没有太多非计算组件,最大限度地减少了物理空间和能源的使用。每个刀片安装在一个刀片机箱或机架内,该机箱容纳多个刀片并提供必要的电力、制冷和网络连接。通过监控每个刀片机箱前后插槽中已占用和空闲插槽的数量,优化数据中心每个刀片机箱的容量利用率。您将准确了解机箱的密集程度,并可轻松识别何时需要购买额外的机箱、刀片或两者。

20. 按导轨使用的机架单元数

在机柜中安装IT设备时,设备可能有规格要求其安装到前导轨、后导轨或两者。通过跟踪按导轨使用的机架单元数,了解您可以部署设备的容量位置。这将帮助您确保拥有满足可能具有特定安装要求的新设备的空间。

七、电力类KPI

21. 过去30天每机柜峰值电力负载

数据中心电力资源日益紧张,而保障运行时间与提高电力利用效率之间存在竞争。数据中心管理者需要全面了解电力使用量、可用量以及可以在何处提高效率。随时间推移测量来自机架PDU进线读数的有功功率,并为机柜级负载设置警告和严重警报阈值,以便在出现问题前立即收到通知,并在服务受影响前能够做出反应。您将提高运行时间并发现闲置的电力容量。

22. 剩余电力容量天数

能够实时监控和管理资源是成功的数据中心管理者与不成功者之间的关键区别。借助能够识别电力消耗趋势并预测耗尽电力所需天数的数据中心监控工具,您将在实际耗尽容量之前就知道何时需要购买更多电力。

23. 机柜电力故障切换冗余合规性

现代数据中心中的机柜密集部署了高耗电硬件,数据中心团队面临着向这些设备提供更多电力的压力。拥有电力冗余解决方案以确保IT设备始终有电力可用,从而最大限度地减少停机时间,这一点比以往任何时候都更加重要。跟踪机柜电力故障切换冗余情况,目标是在数据中心实现100%的合规性。

24. 带峰值负载阈值和警报的机柜电力趋势

最大化运行时间和改善数据中心健康状况是所有数据中心管理者的核心关切。许多组织可能每周或每月测量一次机柜电力消耗,这使得他们容易遭受未被发现的短期峰值和潜在过载的影响。实时监控每个机架的电力消耗,持续分析该数据趋势,并设置阈值和警报,以确保在出现重大问题或用户受到影响之前得到通知并能够做出反应。

25. 断路器利用率

当断路器未得到适当监控时,它们可能会过载并导致停机,在供电链中造成瓶颈,或利用率不足导致您无法充分利用电力资源。通过监控供电链中所有断路器的利用率,优化数据中心的健康状况和效率。为了获得最完整的数据,请监控供电链层次结构每一级(包括机架PDU、分支电路、配电盘、地板PDUUPS组)中每个断路器的预算负载、额定值、每相负载、最高相负载、最低两相负载、相位不平衡和总负载。

26. 三相负载平衡百分比偏差

管理电力负载是许多数据中心管理者面临的最大技术挑战之一。当系统不平衡时,由于某一相消耗的电力多于其他相,可能会导致压降。也可能出现相线过热或中性线过热的情况。实时监控每相的电力消耗,并保持负载平衡,以最大化运行时间、优化电力资源利用率并确保IT基础设施安全。

27. UPS负载系数

负载系数定义为UPS的实际负载与在同一时间内可能使用的最大可能负载之比。高负载系数表明能源利用效率更高。监控您的UPS负载系数,目标是维持0.5或更高的系数。提高UPS负载系数的方法包括:当冗余级别超过N+1时关闭部分UPS、安装可扩展/模块化UPS或更小尺寸的UPS以适应当前负载容量,或在UPS之间转移负载以最大化每个UPS的负载系数。

八、能效类KPI

28. 电力使用效率

PUE是美国绿色网格协会开发的一项指标,是报告数据中心能效最常用的KPI它是设施总能耗与输送给IT设备的能耗之比。您的PUE目标应低于1.5,如果拥有较新的数据中心或正在迁移到较新的托管设施,则应低于1.2。如果您的PUE非常高,则通过在数据中心实施能效最佳实践,您将拥有巨大的成本节省机会。随时间推移跟踪PUE,以观察效率优化措施的效果。

29. 符合ASHRAE标准的机柜百分比

通过将温度和湿度维持在美国采暖、制冷与空调工程师学会(ASHRAE)提供的范围内,最大化能效并确保IT设备处于最佳环境条件。使用环境传感器,通过在ASHRAE焓湿图内的热包络线中可视化所有传感器点,来识别热点、过度制冷和极端湿度水平。然后,跟踪数据中心中符合ASHRAE标准的机柜百分比,目标是保持100%的合规性。

九、制冷类KPI

30. 每机柜最新温度

数据中心监控中一个常见的错误是监控房间级别的温度而非机架级别的温度,这可能导致您对在不安全温度下运行的机柜视而不见。幸运的是,随着部署更多环境传感器以及用于收集、监控和分析数据的软件,在机柜级别跟踪温度从未如此简单。您应实时监控每个机柜的温度,以确保设备在ASHRAE标准范围内安全运行,轻松识别热点,并通过避免过度制冷来节省资金。

31. 热点发生频率与持续时间

热点是指IT设备进风处因制冷不足导致温度超出建议范围的位置,它们对设备构成威胁并增加停机风险。主动监控和分析环境中机架进风口温度的趋势,旨在最小化所有影响服务的热点的发生频率、规模和持续时间。为缓解热点,需确保高架地板砖正确放置、使用适当穿孔率的板砖、实施冷热通道遏制、正确摆放机柜和机房空调,并将高密度服务器分散布置在整个数据中心。

32. 每机柜的温差(ΔT

温差(Delta-T)是指机柜不同位置两个传感器读数之间的温度差值。它用于测量IT设备进风温度与IT设备散热温度之间的差异。您应监控数据中心每个机柜的ΔT,以帮助平衡气流、识别热点并维持安全环境。这将有助于最大化制冷容量、降低运营支出并推迟资本支出。

33. 过去30天每机柜最高温度

除了跟踪每机柜的最新温度外,您还应通过分析该数据随时间变化的趋势来增加监控的复杂度,以识别峰值和异常情况。通过监控过去30天每机柜的最高温度,您可以确保您的设备不仅现在,而且始终在安全准则内运行。如果发现温度峰值,您将有数据来识别问题所在并防止其再次发生。

34. 气流效率

气流效率是衡量单位气流所需总风扇功率的指标,提供了空气从送风到回风在数据中心内流动效率的高层视图。其计算方法是将风扇功率(瓦特)除以送风和排风气流的立方米每小时。如果您的气流效率大大超基准,则表明您的风扇系统效率低下,可能需要进行设计改进。

35. 制冷系统效率

该指标表征数据中心制冷系统的整体效率,以平均制冷系统功率使用量(千瓦)与平均制冷负荷(吨)的比值表示。0.8千瓦/吨是一个良好的基准,而0.6千瓦/吨及以下则更为理想。如果您的制冷系统效率值过高,可考虑通过利用模块化、高效冷水机组、全变频系统、提高冷冻水温度或采用水侧节能器来提高冷水机组效率。

十、连接类KPI

36. 空闲数据端口最多的机柜

在调配新设备时,您应知道预留机柜空间的最佳位置,以实现资源的最佳利用。这需要了解哪些机柜具有可用的数据端口容量。通过在机柜级别跟踪物理端口容量,您可以智能地调配新设备,做出更明智的容量规划决策,更有效地使用电力和网络资源,并降低运营支出。

37. 按连接器类型划分的数据端口使用率

容量规划不仅仅是对未来的硬件预测。您需要了解并理解直至端口级别的连接容量,才能成功规划和实施数据中心项目。您应实时跟踪数据中心每种连接器类型已连接和空闲端口的数量,以获得最准确、最精细的连接容量视图。

38. 每个连接电源的资产数量

由于IT设备需要连接到多个电源以确保冗余,数据中心管理者需要跟踪每台设备连接了多少个电源。使用DCIM软件轻松识别未连接到适当数量电源的服务器。例如,一个双电源设备可能只有一个电源连接。然后,根据此信息采取行动,确保所有设备都有冗余电源,以避免代价高昂的停机。

39. 按端口属性划分的数据端口使用率

数据中心是一个高密度、复杂的系统,拥有数百甚至数千台来自众多供应商的设备,以及大量具有不同属性的电力插座。了解有多少端口已连接或空闲对于有效管理数据中心至关重要。按颜色、电压、相位和安培额定值监控电力插座使用情况,按VLAN/分组、协议、数据速率和介质监控数据端口使用情况,以简化容量规划并更轻松地管理连接。

40. 数据端口容量及使用趋势

您规划和管理数据中心容量的有效程度与数据的准确性和洞察力相关。将容量跟踪细化到数据端口级别,可提供精细的数据,提示您还有多少可用端口。按连接器类型监控您的使用情况和容量,确保数据中心永远不会耗尽空闲的数据或电力插座

十一、结语

整合、分析并对数据中心影响最大的KPI采取行动比以往任何时候都更为关键,但您如何开始监控如此多的指标?借助全面的DCIM解决方案,这很容易。现代化的第二代DCIM工具通过零配置的仪表板小部件、报告和可视化分析功能,提供所有最重要的KPI,开箱即用。企业级的数据与健康轮询器直接从设施设备收集数据,确保信息准确、高质量,从而带来更深入、更可靠的洞察。