【精品】基于大数据技术的有线网络综合监控平台分析(数据库监控管理,关键词优化)

时间:2024-05-07 04:05:43 作者 : 石家庄SEO 分类 : 关键词优化
  • TAG :

    %E3%80%90%E7%B2%BE%E5%93%81%E3%80%91%E5%9F%BA%E4%BA%8E%E5%A4%A7%E6%95%B0%E6%8D%AE%E6%8A%80%E6%9C%AF%E7%9A%84%E6%9C%89%E7%BA%BF%E7%BD%91%E7%BB%9C%E7%BB%BC%E5%90%88%E7%9B%91%E6%8E%A7%E5%B9%B3%E5%8F%B0%E5%88%86%E6%9E%90

点击标题下「广电猎酷」可免费下载行业标准

本文由《广播与电视技术》杂志独家授权。本文刊发于年第12期。

作者:贾兴华,白鹤,傅力军(中国广播电视网络有限公司)

【摘要】

随着云计算大数据的不断发展,底层基础设施资源的整合将成为各个公司未来IT架构变化的主要趋势,多业务系统共享底层基础设施资源,传统综合监控系统已经无法满足现有需求,本文对如何设计一套基于大数据的综合监控平台进行了详细的阐述,并分析了系统建设中涉及的关键技术。

0引言

目前各省广电网络公司均拥有相当数量的业务监控系统,配备一定数量的人员进行实时监视与维护,各公司均设有业务运行监控专职部门,同时也设置了运行维护岗,承担监视与维护职责。随着全国有线电视网络的逐步整合,业务职能的也会随之调整,随着现有业务垂直化管理趋势,当前的监控系统已经很难满足未来的业务需求。

因此,在基础资源、数据资源、业务应用集约化的同时,建立全流程、全要素、全过程的能进行统一监控和运维管理的系统已经成为保障实时业务正常运行的关键;而且统一运维监控也将降低场地环境、动力能耗和人力资源成本,提高运维效率。

1系统设计目标

全国集中的综合监控系统的监控范围横向涵盖“数据产生、数据收集、数据加工处理、数据存储服务、数据分析应用”数据全流程监控;纵向涵盖“机房场地环境、IT基础资源、数据平台、业务系统”全业务范围和国、省两级IT基础资源、数据平台。融合“数据全流程、基础设施资源、高性能、信息系统安全、动力环境”的监控,实现集中监视和控制;在集中监控的基础上,把监视功能下沉一级,实现监控运维的全国联动。运维机制上,实现多个运维中心、业务单位的协同分工机制,其中信息化部门负责基础设施、数据运维及系统安全管理,业务单位负责应用系统运维及应用安全;实现基础设施资源社会化保障和核心业务自我保障协同机制。

2系统整体架构

综合监控平台是支撑全国广电网络业务全流程、一体化、可视化运维管理的技术平台,基于统一运维技术标准和管理规范构建,由信息采集层、信息分析处理成、综合业务层和用户层组成,具备广电网络业务监控信息采集和处理分析、集中监控和运维管理、以及基础设施资源运营服务和业务展示等功能。

3数据流程设计

综合监控平台的全流程监视能力依赖于两个主要的数据流程,即监视基础数据流程和控制数据流程。

图1统一运维平台总体架构

3.1监视基础数据流程

1.采集:系统通过综合业务信息汇聚接口获取采集端采集的基础设施资源、数据收集存储加工环节、核心业务系统的运行状态、业务处理和告警信息。

2.实时处理及存储:系统将需要实时分析处理的信息发送到相应的信息分析处理模块进行处理,并将原始信息和处理后信息存储在运维管理数据库中。

3.批处理:根据各类监视信息的统计时间窗口,系统将定时调度信息分析处理模块对相应监视信息进行准实时、非实时批处理,生成业务统计信息并存储。

4.展示:综合业务层通过访问运维管理数据库或消息方式获取所需的监视信息进行前台的业务展示、集中监视、运营服务界面展示。

3.2控制数据流程

1.发起:管理员发起的控制信息主要包括控制指令、配置信息、运营信息;其中控制指令主要是根据告警情况和故障分析进行可能的故障处理的指令;配置信息主要是实现对调度策略等各方面配置的更新;运营信息是提供基础设施资源和数据资源服务时所需新增和更新的运营信息。

2.控制处理:发起的控制信息通过消息发送到相应控制信息处理模块执行,并反馈执行情况;如执行失败,需进行回滚操作;同时将控制信息存储到运维管理数据库。

4系统功能设计

4.1集中监视

集中监视基于监控信息数据库,按照由面到点的原则,分整体业务监视、类别监视和资源细节监视等三个层次,动态展示场地环境、网络系统、集约化资源池、数据环境、业务的关键性能指标、预警信息及异常和故障信息,多维度、精细化监视观测、传输、数据环境及数据应用等环节中关键业务数据的完整性、时效性及数据质量,提供异常自动报警及报警信息实时推送和发布。

图2统一运维平台总体流程

1.整体业务监视:整体业务监视根据资源范畴对云中心各层面进行归类整体状态集中监视,主要包括数据资源、国省两级业务应用系统、用户服务、计算存储(包括集约化资源)、网络资源、内容资源、视频流资源以及覆云中心的信息安全和用户行为监视等内容。并细分为各资源整体状态监视和用户关注关键内容集中监视。

各资源整体状态监视通过对每类资源监视点状态进行指标设定,根据状态指标分析机制,实时展示各类资源的总体状态。当某类资源任一监视点出现故障标识并对业务已造成重大影响时,对应整体监视状态显示故障指标类型及数据。当某类资源任一监视点出现异常标识并在未来一段时间将对业务已造成影响时,对应整体监视状态显示异常指标类型及数据。同时提供导航机制进入资源类别监视和资源内部细节监视中查询更为详细的监视信息。

2.类别监视:类别监视的对象包括:内容资源监视、业务应用系统、硬件资源、场地资源、信息安全和用户行为。

内容资源监视根据业务特点,对内容在各个业务环节的合法性、时效性、完整性和数据质量等内容进行多维度监视,主要包括用户高关注度内容监视、内容分类监视、内容流流监视。用户高关注度内容监视提供视频服务、安全管控、信息网络等三个方面业务用户关心的监视。内容分类监视根据不同的内容类型提供内容合法性、安全性、时效性和完整性等监视。内容流监视主要提供一体化内容流中的采集、处理、存储、分发等业务环节的实时监视。

业务应用系统监视针对云中心有统一监视需求的国省两级业务应用系统,实现其系统运行总体状态的实时监视。涉及的业务应用系统包括观直播业务、点播业务、应用服务业务以及信息网络业务应用。

硬件资源监视实现对云中心计算、存储、网络等基础资源的监视以及对运行于基础资源上的数据库、中间件等平台环境的监视。主要包括:集约化计算存储资源与传统资源的设备状态、资源使用情况等监视;局域网络、广域宽带网络等各类网络带宽资源使用情况,业务及用户级流量的可视化监视;各个数据库、系统软件、基础软件、中间件状态监视,等等。

场地资源监视提供机房供配电、温湿度数值和空间分布、动力环境设备运行状态、机房运行情况等的监视。

信息安全监视采集各类网络设备、安全设备、服务器、应用系统的相关状态、日志、告警信息,对采集的各类信息进行综合分析,实现对云中心平台安全健康状态监视、安全事件监视、安全事件可追溯等的信息安全综合监视。

3.集中告警管理:集中告警对云中心各层资源异常状态进行集中显示、提醒和管理,主要包括数据资源完整性、时效性、数据质量等异常告警;各个业务应用系统在运行过程中产生的错误告警;服务器、存储、网络等在运行过程中产生的异常告警;场地环境的异常告警;用户行为的异常告警;以及安全方面的告警等。并通过多种技术手段(诸如邮件、短信或即时通信工具)实现关键异常信息的快速发布和及时提醒。

当某类监视对象的任一监视点出现故障标识并对业务已造成重大影响时,集中告警将以页面显示、声音告警、邮件、短信或即时通讯工具通知和发布等方式提醒运维人员进行处理。当某类监视对象的任一监视点出现异常标识并在未来一段时间将会对业务已造成影响时,集中告警功能将以页面显示、声音告警、邮件、短信或即时通讯工具通知和发布等方式进行异常预警,运维人员可得以及时进行处理,以提前预防故障发生。

4.2运维控制

运维控制基于配置管理数据库,构建基础设施资源、数据资源、应用系统、信息安全系统等的资源拓扑和运维流程;管理和维护网络系统、集约化资源池、数据环境、业务应用系统、信息安全系统的运行,包括事件、问题、变更、配置、发布以及知识管理等;根据业务服务模型生成统计报表,包括性能数据的日报、周报、月报、性能数据的对比分析报表、性能数据的趋势分析报表、以及告警分类报表、告警分时报表、告警来源报表等,提供报表定制及推送和发布。

运维控制从“运”的角度包括运行管理、统计分析和业务控制功能,从“维”的角度主要包括配置管理、变更管理、发布管理、事件管理、问题管理、知识管理等业务功能。

1.运行管理:运行管理主要负责运维工作流的内容和节点设计,并面向业务管理人员提供统一运维的整体运行状态和各运维岗位工作情况统计信息,为运维质量和工作效能考评提供参考。

2.业务控制:应用调度云中心运行的有统一控制需求的业务应用提供有限目标的应用软件级别控制能力和调度功能,主要包括业务应用人工控制、任务/作业调度控制、业务配置信息管理、配置信息及业务信息的调阅和发布控制等。

3.统计分析:提供统计报表和在线分析功能。包括主题管理,实现对各类业务主题的定义;报表定制,实现基于主题的报表类型定义以及报表订阅;报表展示与发布,实现各种报表数据的展示与多手段发布;在线统计,实现基于多种统计条件的在线统计功能,实时输入统计条件实时生成统计数据。统计数据提供图表展示方式。

4.运维管理:运维流程管理面向业务运维和管理人员,主要实现IT服务管理功能,参照ITIL最佳实践框架,建立起符合业务实际需求的事件管理、问题管理、变更管理、配置管理、发布管理和知识管理等运维流程并驱动流程的运转,提高业务运维的效率。

事件管理的主要目的是在最短的时间内恢复正常服务并将对业务运营的不利影响降至最低,从而确保维持协定的服务质量。

问题管理是对所有问题从最初识别到进一步调查、文档记录直至解决的整个生命周期进行管理。

变更管理主要是控制所有变更的生命周期,使得在最小化影响IT服务的情况下执行有益的变更。

配置管理主要规范配置活动,确保配置项正确地唯一标识并易于存取,保证基准配置项的更改受控,明确基线状态,在贯穿整个生命周期中建立和维护配置项内容的完整性和可追溯性。

发布管理主要是策划、制定时间表、控制构建、测试和部署发布的过程,交付业务需要的新功能并且保护现有服务的完整性。

知识管理主要为统一运维实现显性知识和隐形知识的共享提供途径,工作内容包括建立知识库、促进运维人员知识交流、建立尊重知识的内部环境、将知识作为资产来进行管理等等。

4.3运营服务

运营服务提供对基础设施资源(计算、存储、网络)的申请、分配、调度和安全管理,提供对IT资源用户和数据用户的用户管理、数据服务及相应技术支持。为保障基础设施资源与数据资源的高效服务,依托业务内网、邮件、电话、传真、即时通讯工具等服务接口,统一运维平台建立服务台,统一受理用户请求,并提供资源调度、资产管理、数据服务、技术支持、安全管理和用户管理等各种服务。

1.资源调度:的核心任务是实现计算资源、存储资源、网络资源、集约化资源池的弹性按需分配。计算存储资源管理调度功能包括资源创建、部署、分配、变更、回收。网络资源调度基于SDN技术,配合计算资源、存储资源的动态调度进行网络资源的动态调度,完成IP地址、VLAN、路由、带宽等的迁移调整。

2.资产管理:主要管理提供运营服务的IT资产,包括硬件、软件及其之间所属关系,跟踪和管理资产的整个生命周期,并提供用户资产的分布及运行状况。

3.技术支持:负责接受、记录、分级和追踪用户通过电话、邮件、短信、即时通信工具等方式提交的服务请求,提供一线的支持服务,协调二线和三线支持,及时通知用户其请求的当前状态和最新进展。

4.安全管理:主要从安全事件管理、安全策略管理、安全权限管理、安全补丁管理等方面提供运营服务。特别是对于单类安全设备无法发现的APT、未知威胁的攻击进行综合分析和检测。

5.用户管理:主要提供统一身份认证和用户信息统一维护功能,从而使得不同类别的用户可以通过单点访问获得一站式服务。

图3监控信息存储组织

4.4系统功能

1.信息采集:提供对业务应用系统和基础设施资源的配置及状态信息的采集服务。主要通过布设信息采集探针,按照格式规范和接口协议获取观测系统、场地环境、网络资源、集约化计算资源、数据环境、业务应用系统的状态,并通过消息总线等接口将状态信息传送信息分析处理层,为业务应用系统和基础设施资源的运行监视、运维管理、安全管理及运营服务提供信息支撑。

本文:【精品】基于大数据技术的有线网络综合监控平台分析的详细内容,希望对您有所帮助,信息来源于网络。
上一篇:公益科普:关于创办公司申请商标(品牌)的流程与注意事项下一篇:

7 人围观 / 0 条评论 ↓快速评论↓

(必须)

(必须,保密)

阿狸1 阿狸2 阿狸3 阿狸4 阿狸5 阿狸6 阿狸7 阿狸8 阿狸9 阿狸10 阿狸11 阿狸12 阿狸13 阿狸14 阿狸15 阿狸16 阿狸17 阿狸18