Login
升级VIP 登录 注册 安全退出
当前位置: 首页 > word文档 > 标准规范 > 数据中心智能运维管理方案设计,数据中心运维工程师证书

数据中心智能运维管理方案设计,数据中心运维工程师证书

收藏

本作品内容为数据中心智能运维管理方案设计,格式为 docx ,大小 143674 KB ,页数为 11页

数据中心智能运维管理方案设计


('数据中心智能运维管理方案设计作者:严代彪来源:《计算机与网络》2021年第06期本文针对数据中心的特点,以智能化运维管理为目标,提出了数据中心智能运维管理方案,设计了运维门户及展示管理、运维资产配置管理、运维服务管理、运维监控监测告警管理、运维自动化管理及开放接口管理等主要内容,为数据中心智能运维管理系统建设提供指导。云计算、大数据、物联网及人工智能等新一代信息技术蓬勃发展,数据中心的规划、设计、建设和运维呈现出绿色节能、向资本效率转型、智能化和智能运维管理等特点。随着信息化进程的日渐深化,智能化运维在数据中心的作用已经不仅限于基础设施的建设、应用及工具的维护,数据中心业务对智能化运维的依赖程度越来越大,这决定了智能化运维已经成为数据中心价值链中不可或缺的重要一环。本文针对数据中心的发展趋势和特点,以智能化运维管理为目标,提出了数据中心智能运维管理方案,设计了智能运维门户及展示管理、运维资产配置管理、运维服务管理、运维监控监测告警管理、运维自动化管理及开放接口管理等主要内容,为数据中心智能运维管理系统建设提供指导。数据中心面临的挑战管理角度首先就是经济性,包括网络资源、空间资源和动环资源如何有效地利用,以及缩减能源和维护人员的运行费用;其次是灵活性方面,包括如何识别和降低过度部署和冗余、灵活扩展空间、制冷和供电容量,及更快地响应业务;第三就是可用性方面,如何实现精细化管理、及时排除隐患、处理复杂故障以及实现动态资源管理;第四就是管理性方面,如何进行有效地数据分析支撑决策和规划、实现系统一体化、系统统一协作和快速响应、满足大客户服务等级协议(SLA)和自服务管理等。技术角度首先面临的挑战就是运维海量数据的存储、分析和处理问题。运维人员必须随时掌握服务器的运行状况,除了常规的服务器配置、资源占用情况等信息外,业务在运行时会产生大量的日志、异常、告警和状态报告等事件。通常每台服务器每个时刻都会产生大量这样的事件,在有数万台服务器的场合下,每天产生的事件数量是数亿万计,存储量在TB级别的。数据中心的服务器规模往往比较大,如何统一、自动化处理这些事件的需求很强烈,毕竟登录查看日志这种方式效率很低,而当前的监控软件只能收集和处理众多事件中的一部分,当服务器数量多了以后,其扩展能力、二次开发能力非常有限。其次面临的挑战是多维度、多数据源的复杂性问题。多维度数据不仅包括常用的时间、地点(哪个服务器或组件)、内容(错误码或状态值),还应当包括地区、机房、服务池、业务线、服务和接口等,而数据分析人员则需要使用各种维度、组合各种指标来生成报告、告警规章及Dashboard等。如何从异构的数据源获取数据,还要考虑当其中某个数据源失效、服务延迟时,能否不影响整个系统的稳定性。多数据源还有一个关键问题就是如何做到数据和展现分离,如果展现和数据的契合度太高,那么随便一点变更就会导致前端界面展现部分的更改,带来的工作量会非常大。第三个技术挑战就是复杂业务模型下的故障定位。业务模型(或系统部署结构)复杂带来的最直接影响就是定位故障很困难,发现根源问题成本较高,需要多部门合作,开发、运维人员相互配合分析(现在的大规模系统很难找到一个能掌控全局的人),即使这样有时得出的结论也不见得各方都认可。在复杂、异构和各种技术混杂的业务系统中,如果想发现问题并定位故障,在各个系统中就必须有一个可追踪、有共性的东西。然而,在现实中若想用某个体系“”来一统天下基本不可能,因为各种非技术因素可能会让这种努力一直停留在规划阶段,尤其是大公司,部门之间的鸿沟是技术人员无法跨越的。“因此,面对以上挑战,数据中心应建设集中化运维、一体化管理、智能化分析、流程化”控制的智能运维管理系统,才能实现智能化运维的管理目标,减少运维人员和维护成本,优化资源管理,从整体上提高智能化运维系统运行协调性、安全性和资源共享性,发挥信息化建设的最大效益。总体设计总体原则智能运维管理方案立足体系建设的角度进行设计,总体原则遵循以下4个方面:以完善的运维服务制度、流程为基础为保障运行维护工作的质量和效率,应制定相对完善、切实可行的运行维护管理制度和规范,确定各项运维活动的标准流程和相关岗位设置等,使运维人员在制度与流程的规范和约束下协同操作。以先进、成熟的运维管理平台为手段通过建立统一、集成、开放并可扩展的运维管理平台,实现对各类运维事件的全面采集、及时处理与合理分析,实现运行维护工作的智能化和高效化。以高素质的运维服务队伍为保障运维服务的顺利实施离不开高素质的运维服务人员,因此必须不断提高运维服务队伍的专业化水平,才能有效利用技术手段和工具,做好各项运维工作。以智能化运维管理为目的智能化运维管理需要实现智能监控、智能检测配置变更以及智能提示3个主要功能,自动提示报警信息,自动触发智能运维变更流程,方便运维管理人员及时采取应对措施。2.总体架构数据中心运行智能运维管理系统由基础设施运维、支撑服务运维、应用系统运维和安全防护系统运维4部分组成,针对数据中心建立的网络设备、计算设备、存储设备和安全防护设备等进行设备管控,同时对操作系统、数据库和中间件等基础软件,以及一体化探测网络应用软件、数据传输系统应用软件、信息处理与服务系统应用软件等提供软件运行实时监测,智能运维管理系统总体架构如图1所示。資源层是数据中心中所有的IT资源,是运维服务的主要对象,包括基础动力环境、网络通信资源、计算存储资源、云资源和应用业务系统资源。服务层包括资源接入服务、数据资源及数据支撑服务和共用的支撑服务。资源接入服务提供各种类型资源的接入功能,负责对资源的运行数据进行采集、控制等。数据资源及数据支撑服务负责对资源的基础信息、资源状态、性能和容量等数据进行采集、存储、管理和分析等。共用服务的基础支撑软件是构建系统所需基础软件运行支撑、规范信息交换流程、提升系统间数据互联互通互操作的能力,提供系统运行、集成手段的基础软件系统,为运行管理保障系统各业务应用软件的研制与综合集成提供共性基础支撑。监控监测告警主要通过各种管理协议和管理接口适配,实现各类管理对象的管理信息采集和运行状态感知,收集高质量、可信和准确及时的信息,提供对上层运维服务的支撑,保障业务流程的有效运行,所管理的对象包括:网络、服务器、存储、安全、机房动力环境及应用服务系统等。运维服务管理是为使服务达到其质量目标而以确定的方式实施的一系列规范化管理服务。运维服务管理流程从流程的目标和范围、流程的触发、流程的输入和输出、流程与其他流程的关系、流程的活动、流程的参考设计、流程中的角色和职责以及流程的关键度量指标等方面对流程进行定义。资源配置管理主要包括资产管理和CMDB配置管理,资产管理服务是提供资源基础信息、配置信息等管理;运维自动化管理为管理人员提供运维自动化能力,提供批量调度执行运维任务,简化运维工作,应对大量简单重复运维动作,比如系统批量补丁升级。统一门户及展现管理提供统一的综合运维平台入口,使运维人员能够基于统一的整合管理界面,进行运维管理的信息查询和相关操作。组成功能通过对运维体系的分析,依托业界现有运维相关的小工具小系统,本文提出了一体化数据中心智能运维管理系统的方案,主要包括综合门户系统、资产配置管理系统、健康监测系统、运维自动化系统、运维服务管理系统和运维对外开放接口系统。这些系统可进行单独部署运行,也可组合形成大系统。系统组成功能如图2所示。综合门户系统提供统一的综合运维平台入口,使运维人员能够基于统一的整合管理界面,进行运维管理的信息查看和相关操作。资源配置管理系统提供整合数据中心及项目资产基本信息、资产关联信息、资产生命周期的管理功能,同時对系统运行的配置信息进行管理。健康监测告警管理系统系统通过自动化的健康监测手段,对数据中心的动力环境、IT基础设施、应用系统进行全方位的监测,同时从状态、性能、容量多个维度判断系统的运行情况,一旦出现问题则通过声光电、短信和邮件等多种方式进行告警通知。运维服务管理系统服务流程管理产品遵循ITIL/ITSS等IT服务管理标准,建立以客户为中心的运维模式,将人、技术与流程进行有效地融合,通过流程管理平台,制定内部运维流程,将运维团队的服务产品化、标准化,提供了服务过程的设计、过程记录、监督与考核等事务的管理能力,同时提供了对IT的各项服务、能力进行整合的职能。服务流程管理产品以高效的自主框架为流程处理引擎,并自主研发图形化的自定义流程、流程状态监控、流程定制工具,方便用户按照实际需求进行定制流程与编制对应的工单。运维自动化管理通过自动化的方式批量完成运维任务,降低运维工作量,规范运维操作,同时支持故障与处理脚本关联,实现故障自愈等功能。部署架构一个典型的数据中心网络架构中分为业务网络、存储网络和管理网络等子网络,运维系统需要与各个子网进行对接,以接收各个子网的数据。在监控过程中采集器部署到与被监控网络互通的网络域,采集器采集数据后,发送给传输消息队列,这要求采集器与消息队列的网络能够互通。智能运维管理系统部署架构,如图3所示。当前云计算IaaS平台的部署,经常将网络划分成不同的子网,不同的子网传输不同的流量,既方便运维管理,也方便租户使用,既安全又互不干涉。管理网:适用于进行运维管理,传输运行数据、管理数据。业务网:适用于业务系统的流量,适用于业务系统使用,比如OA系统等。存储网:适用于部署了基于x86架构的分布式存储、虚拟存储或者大数据存储平台,需要独立的存储网络支撑存储流量。SAN网:用于采取集中存储的数据存储环境,此网络属于光纤网络,监控系统不会接入到光纤网络。工控网:使用于机房环境监控。如果网络进行了管理、业务子网的划分,那么要求部署监控系统采集器的服务器或者虚拟机具备至少3个网卡、3个网址,分别属于不同的子网。监控系统实现了对机房环境、网络设备、安全设备、服务器硬件、操作系统、中间件、数据库、业务系统以及日志等数据的监控,不同的监控对象,监控数据需要在不同的网络中获取。应用服务器采用双机冗余,部署资源管理、策略管理、系统管理、告警模块和报表模块等管理模块,部署消息队列、缓存、数据解析分析、外部接口等基础软件模块。技术路径微服务架构设计随着微服务等新兴架构的提出,在框架轻量解耦、需求敏捷响应、结构自动演化、资源弹性伸缩等方面有了长足进步,但也会带来性能损耗、整体资源要求高以及运维复杂等缺点。在数据中心智能运维管理系统建设过程中,需要充分结合现有信息系统特点和现状要求,考虑机动环境快速构建、服务运行自动扩容等场景,借鉴并兼容微服务中基于容器技术的服务持续集成、动态迁移、弹性扩展及监控治理等技术,实现服务持续集成、部署迁移和监控治理等能力,提供更精准敏捷的信息服务能力。服务层包括资源接入服务、数据资源及数据支撑服务和共用的支撑服务。资源接入服务提供各种类型资源的接入功能,负责对资源的运行数据进行采集、控制等。数据资源及数据支撑服务负责对资源的基础信息、资源状态、性能和容量等数据进行采集、存储、管理和分析等。共用服務的基础支撑软件是构建系统所需基础软件运行支撑、规范信息交换流程、提升系统间数据互联互通互操作的能力,提供系统运行、集成手段的基础软件系统,为运行管理保障系统各业务应用软件的研制与综合集成提供共性基础支撑。监控监测告警主要通过各种管理协议和管理接口适配,实现各类管理对象的管理信息采集和运行状态感知,收集高质量、可信和准确及时的信息,提供对上层运维服务的支撑,保障业务流程的有效运行,所管理的对象包括:网络、服务器、存储、安全、机房动力环境及应用服务系统等。运维服务管理是为使服务达到其质量目标而以确定的方式实施的一系列规范化管理服务。运维服务管理流程从流程的目标和范围、流程的触发、流程的输入和输出、流程与其他流程的关系、流程的活动、流程的参考设计、流程中的角色和职责以及流程的关键度量指标等方面对流程进行定义。资源配置管理主要包括资产管理和CMDB配置管理,资产管理服务是提供资源基础信息、配置信息等管理;运维自动化管理为管理人员提供运维自动化能力,提供批量调度执行运维任务,简化运维工作,应对大量简单重复运维动作,比如系统批量补丁升级。统一门户及展现管理提供统一的综合运维平台入口,使运维人员能够基于统一的整合管理界面,进行运维管理的信息查询和相关操作。组成功能通过对运维体系的分析,依托业界现有运维相关的小工具小系统,本文提出了一体化数据中心智能运维管理系统的方案,主要包括综合门户系统、资产配置管理系统、健康监测系统、运维自动化系统、运维服务管理系统和运维对外开放接口系统。这些系统可进行单独部署运行,也可组合形成大系统。系统组成功能如图2所示。综合门户系统提供统一的综合运维平台入口,使运维人员能够基于统一的整合管理界面,进行运维管理的信息查看和相关操作。资源配置管理系统提供整合数据中心及项目资产基本信息、资产关联信息、资产生命周期的管理功能,同时对系统运行的配置信息进行管理。健康监测告警管理系统系统通过自动化的健康监测手段,对数据中心的动力环境、IT基础设施、应用系统进行全方位的监测,同时从状态、性能、容量多个维度判断系统的运行情况,一旦出现问题则通过声光电、短信和邮件等多种方式进行告警通知。运维服务管理系统服务流程管理产品遵循ITIL/ITSS等IT服务管理标准,建立以客户为中心的运维模式,将人、技术与流程进行有效地融合,通过流程管理平台,制定内部运维流程,将运维团队的服务产品化、标准化,提供了服务过程的设计、过程记录、监督与考核等事务的管理能力,同时提供了对IT的各项服务、能力进行整合的职能。服务流程管理产品以高效的自主框架为流程处理引擎,并自主研发图形化的自定义流程、流程状态监控、流程定制工具,方便用户按照实际需求进行定制流程与编制对应的工单。运维自动化管理通过自动化的方式批量完成运维任务,降低运维工作量,规范运维操作,同时支持故障与处理脚本关联,实现故障自愈等功能。部署架构一个典型的数据中心网络架构中分为业务网络、存储网络和管理网络等子网络,运维系统需要与各个子网进行对接,以接收各个子网的数据。在监控过程中采集器部署到与被监控网络互通的网络域,采集器采集数据后,发送给传输消息队列,这要求采集器与消息队列的网络能够互通。智能运维管理系统部署架构,如图3所示。当前云计算IaaS平台的部署,经常将网络划分成不同的子网,不同的子网传输不同的流量,既方便运维管理,也方便租户使用,既安全又互不干涉。管理网:适用于进行运维管理,传输运行数据、管理数据。业务网:适用于业务系统的流量,适用于业务系统使用,比如OA系统等。存储网:适用于部署了基于x86架构的分布式存储、虚拟存储或者大数据存储平台,需要独立的存储网络支撑存储流量。SAN网:用于采取集中存储的数据存储环境,此网络属于光纤网络,监控系统不会接入到光纤网络。工控网:使用于机房环境监控。如果网络进行了管理、业务子网的划分,那么要求部署监控系统采集器的服务器或者虚拟机具备至少3个网卡、3个网址,分别属于不同的子网。监控系统实现了对机房环境、网络设备、安全设备、服务器硬件、操作系统、中间件、数据库、业务系统以及日志等数据的监控,不同的监控对象,监控数据需要在不同的网络中获取。应用服务器采用双机冗余,部署资源管理、策略管理、系统管理、告警模块和报表模块等管理模块,部署消息队列、缓存、数据解析分析、外部接口等基础软件模块。技术路径微服务架构设计随着微服务等新兴架构的提出,在框架轻量解耦、需求敏捷响应、结构自动演化、资源弹性伸缩等方面有了长足进步,但也会带来性能损耗、整体资源要求高以及运维复杂等缺点。在数据中心智能运维管理系统建设过程中,需要充分结合现有信息系统特点和现状要求,考虑机动环境快速构建、服务运行自动扩容等场景,借鉴并兼容微服务中基于容器技术的服务持续集成、动态迁移、弹性扩展及监控治理等技术,实现服务持续集成、部署迁移和监控治理等能力,提供更精准敏捷的信息服务能力。',)


  • 编号:1700810074
  • 分类:标准规范
  • 软件: wps,office word
  • 大小:11页
  • 格式:docx
  • 风格:商务
  • PPT页数:143674 KB
  • 标签:

广告位推荐

相关标准规范更多>