专业服务

Management and Operations 指南


此在线工具提供的 M&O 指导有助于,确定不受限于 Tier 和所安装基础设施、可影响数据中心实现业务和性能目标的能力的行为。本指南专为强调适用的 M&O 行为编制,与数据中心设计无关,涵盖现场的日常活动以及上游的规划及决策工作。

这些行为直接取自 Uptime Institute 的“Tier Standard:Operational Sustainability. 这些行为经过由企业业主组成的关键利益相关者联盟、外包操作和第三方/多租户产业领域的审核和确认,可确保 M&O 与众多管理解决方案兼容且适用于多种计算环境。此指导文档记录了该努力的结果。此指导中的 M&O 标准由数据中心产业专业人士针对产业情况制定,而不是对其他产业的标准的重新解读。

人员配置、维护、培训、规划和操作条件方面的管理和操作行为标准为数据中心业主、操作员和主管提供了确保非 Tier 设施稳定的 24x7 小时全天候数据中心操作所需的最少行为。关注推荐可帮助实现所安装基础设施的完全性能和机房正常运行时间潜力的行为,提升操作效率,并实现提升能源效率的机会。

Management and Operations 行为

下述类别中提及的 M&O 行为对于想要发挥其完全正常运行时间潜力、充分利用所安装基础设施/设计、实现数据中心高效操作,并获得更多提升能源效率机会的机房而言至关重要。您可以点击各个类别了解相关详情。

M&O 行为分为 5 类:   

各类别的相应行为均广泛适用于基础设施:Operational Sustainability 中的设计、机房地点和建造特征元素(不直接适用于机房的日常操作措施和管理活动)。


人员配置及组织:
正确配置的合格人员人数对于数据中心实现长期性能目标非常关键。必须提供充足的合格内部人员和/或供应商支持,以便执行所有维护活动和操作数据中心,以尽可能确保符合正常运行时间目标。数据中心的所有工作人员都必须拥有必需的经验和技术资格来执行被分派的活动,而不影响数据中心性能。所有职位的角色和职责都应有所规定,且其重要程度经过管理层确认。数据中心组织需要关注如何实现正常运行时间目标。
点击此处查看人员配置及组织行为

维护:
要维护设备最佳状况并尽可能减少设备故障,必须具有包括预防性和预见性维护计划、供应商支持、充足资源的有效维护计划,以及记录追踪能力。可确保设备处于顶级性能条件的预防性维护 (PM) 计划是尽可能减少设备故障的最有效方法。需要制定全书面化的程序和流程来完成所有必要维护活动。

用于追踪设备状态和确定维修活动趋势的维修管理系统 (MMS) 是有效维护计划的必备要素。有效的预见性维护计划可在导致故障之前识别潜在问题,并提供信息管理需求以便更好地分配维护资源。MMS 对于确保维护计划的制定和完成、人员配置和评估以及制定生命周期计划和预算都非常重要。要尽可能减少延期维护,必须掌握维护活动的纪录追踪状态(任何延期的维护活动都会为数据中心带来风险)。追踪服务中断和确定根本原因是确保可采取正确行动来防止再次发生故障的重要方法。

任何阶层的基础设施支援维护供应商都应具有相应的合格供应商名单,且明确的工作范围、电话流程、相应资格和响应时间的正式合同,以确保所需的服务水平符合正常运行时间目标。确保计算机房和关键环境中没有可燃物和污染物的后勤工作同样是重要的维护方面。
点击此处查看维护行为

培训:
培训计划旨在确保所有人员了解有关在数据中心工作的政策、程序和独特要求。这对于避免意外中断和确保恰当响应预期和意外活动而言非常重要。当正常运行时间目标或机房复杂度提升时,也需要制定更全面、更严格的培训计划以防止出现人为错误。培训计划需要具有齐全的文档记录,以确保为所有人员提供一致培训。

供应商所需的培训量取决于其是否始终需被陪同。供应商培训应不只是针对其维护的特定活动和设备验证资格/证书。他们还需要接受有关特定于机房的政策和程序的培训,并遵循这些政策和程序。
点击此处查看培训行为

规划、协调和管理:
有效规划、协调和管理计划包括机房政策、财务管理政策、机房基础设施库,以及空间、电力和冷却能力管理工具。

所有数据中心政策和程序都必须具有文档记录,以确保易于理解和遵循。数据中心管理和操作行为的不一致可能会导致发生中断。对于可能需要处理异常情况的人员,能够使用包含数据中心基础设施内所有信息的完整现场参考资料库至关重要。此外,还应准备好整个数据中心的精确竣工图。

监控并分析气流和电力可提前识别潜在问题、提升资源利用率和数据中心可用性,并提供有助于利用能源效率的环境。

用于确保数据中心具有预算来支持业务目标的财务程序也非常重要。MMS(参见维护部分)中的数据在创建、审核和评估人员级别及整体数据中心操作预算时极具价值。
点击此处查看规划、协调和管理行为
操作条件:
要确保始终为 IT 设备提供电力和冷却,需要确保容量组件和设定值管理一致且具有文档记录。操作条件应基于风险和成本。负载管理决策应基于电力容量组件进行建立、记录和实践,以确保未超出最大负载且保留切换部分的能力。
点击此处查看操作条件行为

Powered by Translations.com GlobalLink OneLink SoftwarePowered By OneLink