admin管理员组

文章数量:1531760

2024年6月18日发(作者:)

TECHNOLOGY AND INFORMATION

电力信息系统全景监控研究与应用

杨猛 邵月 张冰

国家电网有限公司信息通信分公司 北京 100761

摘 要 随着电力信息系统不断云化、微服务化改造,信息系统应用组件类型更多、调用链路更加复杂,云上应用

租户无法掌握底层平台运行状态,在出现应用问题后更加难以定位。因此,有必要开展云上信息系统全景监控能力建

设,实现系统全链路可视化跟踪分析,提高问题发现及定位能力。为此,本文结合实际运维需求,开展了云上电力信

息系统全景监控的研究,设计了全景监控平台构建框架,对于后续全面开展全景监控能力建设具有重要指导意义。

关键词 全链路追踪;电力信息系统;微服务;全景监控能力

Research and Application of Panoramic Monitoring of Electric Power Information System

Yang Meng, Shao Yue, Zhang Bing

State Grid Information and Communication Branch, Beijing 100761, China

Abstract With the continuous cloudification and micro-service transformation of electric power information system, 

there are more types of information system application components and more complex call links, and tenants on the cloud 

application cannot grasp the operation status of the underlying platform, which is more difficult to locate application problems 

once such problems occur. Therefore, it is necessary to carry out the panoramic monitoring capacity of cloud information 

system, realize the visualized tracking and analysis of the whole link of the system, and improve the ability of problem 

detection and location. Therefore, this paper combines the actual operation and maintenance requirements to carry out the 

research on panoramic monitoring of cloud electric power information system, and designs a framework for the construction 

of panoramic monitoring platform, which has important guiding significance for the subsequent comprehensive implementation 

of panoramic monitoring capacity construction.

Key words full-link tracking; electric power information system; micro-service; panoramic surveillance capability

引言

近年来,随着国家电网有限公司数字化转型快速发展,

国网云平台、数据中台等基础支撑平台能力大幅增强,电力

信息系统建设也朝着云上微服务架构快速演进,而云平台屏蔽

底层逻辑、资源弹性伸缩与动态调配的能力在给信息系统部署

应用带来便捷、灵活的同时,也给信息系统运行问题分析及定

位引入了新的难题。一是云上应用租户无法感知云平台PaaS

层、IaaS层以及相关云外主机、安全、网络等软硬件设备运行

状态,跨专业、跨单位部门临时协同排查效率低、沟通成本

高;二是上层业务与下层应用组件、基础平台组件关联关系不

明晰;三是微服务数量大、跨省跨单位调用链路关系复杂;四

是日志及告警数据量巨大,且冗余信息较多,这些都给系统故

障分析定位处置增加了巨大难度

[1]

。因此,有必要针对云上微

服务架构电力信息系统覆盖业务、应用、云平台、基础软硬件

设备的全景监控技术进行研究,将各层级监控能力进行整合关

1  全景监控需求

1.1 监控层级

基于云上微服务架构的电力信息系统全景监控系统从上到

下需监控的对象包含:业务层、应用层、PAAS层云组件及云外

组件、IAAS层资源及云外硬件资源。

业务层监控对象主要包含直接面向用户的各类业务功能;

应用层监控对象主要包含后台支撑实现业务功能的各微服务、

微应用;PAAS层云组件及云外组件层主要包括对应用层提供

支撑的平台类组件,其中云上组件主要包括分布式应用服务

EDAS、全局事务服务GTS、Redis、容器服务K8S、消息队列

MQ、负载均衡SLB、表格存储OTS、ES、云数据库RDS、分

布式数据库DRDS、数据仓库、对象存储、云服务器、分布

联,构建基于全链路追踪的全景监控能力,实现对业务异常的

快速发现、精准告警能力。

科学与信息化2023年9月下

  

109

TECHNOLOGY AND INFORMATION

式任务调度等各类云组件,云外相关组件主要包括:Oracle、

Nginx、Tomcat等;IAAS层资源及云外硬件资源监控对象主要

包含虚拟计算资源、虚拟存储资源、虚拟网络资源,以及它们

所依赖的底层物理服务器、物理存储、物理网络等硬件设备。

1.2 监控能力

为保障云上微服务架构下电力信息系统业务稳定运行,有

效支撑运维人员掌握系统整体运行状态、快速定位异常根因,

设计构建的全景监控系统应包含全景监控能力、智能分析能力

及监控可视化能力。

全景监控能力主要实现信息系统的全链路监控,包括业务

层监控、应用层监控、Paas层监控、IaaS层等各层级纵向贯通

监控,以及覆盖总部侧到省侧、系统本体到外部集成系统间的

横向两级链路监控,形成全景监控能力。

智能分析能力主要实现对监控运行状态及告警数据的统一

汇聚、展示、处理能力,实现智能化分析应用,包括异常智能

检测、告警智能收敛、故障原因分析、故障智能预警等能力,

最终达到系统自描述、状态自监测、异常自诊断、故障自恢复

的目的

[2]

监控可视化能力主要实现信息系统运行状态及告警可视化

展现能力,包括对业务应用状态、系统健康状态、资源利用水

位等进行统一可视化展示,结合监控大屏、监控报表能力,能

够为管理层、业务运营人员、系统运维人员及研发单位等不同

对象进行系统运维运营分析提供数据支撑。

2  系统总体设计

2.1 整体设计

全景监控系统整体架构从下往上包含:监控工具层、智能

运维中台层、全链路监控应用层。

监控工具层:涵盖各类监控工具,用于日志、运行数据的

监控采集,如:日志分析、应用性能监控、网络性能监控、基

础设施监控采集,作为智能运维中台的数据源,可用于各类全

链路监控场景。

智能运维中台层:包含数据平台,配置管理数据库,算法

中心等,完成数据汇聚、处理、存储等、赋能上层全链路监控;

全链路监控应用层:主要完成全景全链路监控,实现智能

告警,工单管理大屏可视化展现。

2.2 全链路监控设计

全链路业务追踪整体以运维数据为基础。通过集中数据采

集、数据处理、数据存储、规则模型、顶层场景的设计,从而

形成运维场景各层级应用系统的调用关联,做到端到端覆盖,

利用智能算法平台,形成业务场景全链路业务追踪、健康度、

多维分析IT指标、业务层级拓扑的立体化监控。

2.2.1 数据采集与处理。全链路追踪数据需要采集的运维数

据类型主要包括指标数据,追踪数据,日志数据,整个数据流

转经过数据采集、数据处理、数据存储、全链路数据应用

[3]

。同

时,针对数据采集器实现集中统一管理。

采集的整体技术方案架构如下:

图1  数据采集技术架构图

110

  

科学与信息化2023年9月下

TECHNOLOGY AND INFORMATION

采集层支持Agent、OpenAPI、SDK等多种采集方式,针对

云平台组件及应用监控,则可集成arms、cms及sunfire等成熟监

控组件监控能力,实现对各类日志、应用全链路、IT基础设备

等数据进行采集、清洗、转换、发送、监控和告警等操作,同时

也对采集任务及行为进行统一规范的调度和管控,避免不规范操

作导致宕机等异常情况的发生,全面保障业务的正常运行。

2.2.2 配置数据管理。CMDB是构建自动化运维管理的基

础,通过对Iaas、Paas到Saas层的运维元数据的全面管理,可以

为运维监控、服务管理和自动化运维等场景提供完整而准确的

元数据支撑。CMDB平台的整体架构可分为数据层、数据采集

层、数据存储层、服务层、数据应用及接口层、数据消费层,

主要层级说明如下:

数据层

[4]

:主要负责基础属性数据、配置关系数据的接收

和存储,mysql负责存储模型的基础属性信息;arango负责存储

模型与模型、配置项与配置项之间的包含、位于、连接等关系

信息,构成业务拓扑和逻辑拓扑的关系基础;kafka则负责接收

来自agent、api、snmp等方式和协议自动采集的数据,并通过建

立不同的topic进行数据分类供数据消费和处理;redis的主要功

能则是负责数据缓存。

服务层:资产配置管理平台的核心能力层,通过其中包含

的各类模块实现对各层级资产对象的数据处理、数据标记、数

据导入、模型设置、拓扑梳理,并通过校验规则设置、数据字

典添加等手段和方式完成了数据的准确性检验和保障。

接口层:通过相关接口的定义和开发,为资产配置管理数

据的高级应用和二次消费提供管道支撑,结合双向的接口以及

用户现有IT环境中各类系统可以完成、资产管理的流程贯通、

故障的精确定位、配置优化等场景的应用落地。

展示层:负责展示资源总数、资产类型、资产详细属性、

配置关系、业务逻辑拓扑图,以及各维度的统计概览视图。

此外,基于数据平台存储的多维数据及CMDB维护的关联

关系,依托MeTow、MeREx和Noran等算法,提取关联的指标

序列,从时间的维度对指标相关性进行计算分析,以计算出可

能的根因,同时算法可对运维人员的反馈进行方向学习,以保

证下次计算的结果的可靠性。同时,结合数据立方搜索算法及

AIOps场景特征,主动挖掘多维度指标隐含信息,快速定位KPI

细分维度根因,进一步提高平台智能化分析能力。

4  结束语

本文针对云上信息系统运维痛点分析了全景监控需求及功

能,提出了一种覆盖全层级的全景全链路监控平台架构,研究

了全景监控的数据采集、智能分析定位技术,有利于提高云上

信息系统运行状态整体感知能力及故障定位效率,从而降低业

务中断的时间,保证业务持续安全稳定运行。后续可以结合具

体信息系统业务特征,针对性开展个性化应用场景设计,进一

步提高全景监控精益化分析能力。

参考文献

[1] 邱鹏,尹泉,张亦琼,等.基于B/S架构的电力信息监控系统设计[J].

工业控制计算机,2020,33(12):125-126,129.

[2] 张俊宇.电力营销采集与监控信息系统建设[J].电子技术与软件

工程,2019(21):247-248.

[3] 温琪宇.基于电力营销采集与监控信息系统建设探讨[J].中国新

通信,2019,21(9):171.

[4] 徐彬泰,周洁,江颖洁,等.电力信息通信网智能监控模型研究[J].

中国新通信,2019,21(5):39.

3  监控告警及智能应用

基于告警信息和指标、日志、追踪等数据,将海量的告警

信息按照相似性整理为多个警报,并将具有一定相关性的多个

警报整理为一个事件,方便运维人员选择与自己相关的事件,

被选择的事件中不包含的告警信息被过滤。支持基于语义相似

度告警降噪类算法、树形搜索的告警降噪类算法、语义相似的

告警关联类算法、NER的告警富集类算法,通过灵活智能告

警,可实时将准确的告警推送给运维人员,以支撑运维人员及

时发现异常。

科学与信息化2023年9月下

  

111

本文标签: 监控数据能力全景业务