2025年07月17日 星期四
您的当前位置: 首页 新闻中心 专题专栏 广电大讲堂 正文
【精选】广播电视台融合媒体平台智慧运维实践
发布时间:2021-04-25 09:19:09 来源:广播与电视技术 广电猎酷 作者: 【 字号:

本文为论文精要,原文刊发于《广播与电视技术》2021年第3期。


河北广播电视台为了保障业务用户能够获取高质量、连续性的服务,为电视台安全生产、安全播出提供支撑,根据广电总局《电视台信息系统运行维护服务通用要求》指导要求构建智慧运维系统,有效提升信息系统运维能力,充分保障融合媒体云平台安全、高效运行。本文是开展融合媒体平台智慧运维实践的心得,可供业界同行借鉴。

本文作者

梁栋(1972-),男,河北广播电视台正高级工程师。主要从事电视台融合媒体、云平台、4K内容制作等系统的设计、建设和运维工作。曾参与过《河北台超大规模非线性制作网》、《河北台全台网》、《河北台高清制作网》、《河北台融合媒体平台》等重大项目的设计和建设工作,获得多项国家广电总局科技创新奖二、三等奖和广电总局全国电视技术能手称号。



0 引言

随着融合媒体迅速发展,广播电视台数据中心有几百、上千台服务器是很正常的情况,当设备以及部署其上的应用、服务数量达到一定级别,依靠传统的人力运维已经力不能及,所以智慧、自动化运维势在必行。

河北广播电视台为了保障业务用户能够获取高质量、连续性的服务,为电视台安全生产、安全播出提供支撑,根据广电总局《电视台信息系统运行维护服务通用要求》指导要求构建智慧运维系统,有效提升信息系统运维能力,充分保障融合媒体云平台安全、高效运行。


1 河北台融合媒体云平台简介


河北台融合媒体平台建设参考国家广电总局《电视台融合媒体平台建设技术白皮书》,采用媒体私有云架构,面向台内外提供高清、4K电视节目等全媒体内容生产服务。

云平台IaaS层采用主流通用的分布式X86服务器以超融合架构构建,部署Vsphere虚拟化平台,在PaaS层采用索贝公司的HIVE架构,使用基于进程容器的轻量级VM解决方案实现业务横向扩展的便捷性;使用Zookeeper实现了服务集群的管理;通过HAProxy+Keepalive实现了服务的高可用和负载均衡。


2  云平台的传统运维模式痛点


建设初期,我们采用传统运维方式,一方面通过不断地机房巡检观察设备运行状态,另一方面不断到终端上去敲命令来获取系统数据,需要人工通过管理控制台查看系统运行状态和性能指标。显然,这些简单、零散、粗犷的方式会增加运维工作量,降低故障发现的及时性。

由于云平台系统复杂,经常当察觉业务不正常的时候,才知道系统出现问题, 而且通过故障表象很难快速、准确定位到某个设备或应用、服务上,而此时业务已中断多时,用户、编辑意见很大。曾经数次因为部分服务和应用宕机造成日播民生新闻类节目无法按时制作,差点耽误播出。

面对云平台日益复杂的IT环境,缺乏快速、完善的故障发现、处理能力;缺乏规范化、自动化的运维工具和有效的运维流程管控机制,已成为电视台运维工作的痛点。导致运维工作总是处于“救火式”状态:事前无准备,事中无跟踪,事后无法追溯,运维经验无法沉淀积累与复用。

为此,亟需构建统一、规范、层次化的智慧运维体系。


3 智慧运维系统介绍


河北台根据广电总局《电视台信息系统运行维护服务通用要求》指导准则构建智慧运维系统,主要包括智能一体化监控平台和智能运维过程管理、资产管理平台。

智能一体化监控平台是信息系统运行维护工作的重要工具,确保及时发现系统故障和隐患、了解业务状态信息。平台对所有IT资源进行7×24小时性能监控、资源可用性监控、资源拓扑关系管理等,并通过分析历史数据不断优化配置阈值,帮助运维人员提升工作效率。通过智能运维过程管理平台,让每一次运维活动都有相应的流程和记录,可随时查看事件、问题、变更等运维活动状态,实现运维管理标准化、规范化。在运维活动完成后,一键转化为知识,提高工作效率。


3.1 智能一体化监控平台

1. 从云平台架构角度看

智能一体化监控平台将所有资源统一监控,对系统健康度进行量化管理,通过主机监视视图关注每个应用的可用性和健康状况,为系统配置优化提供量化数据。

2. 从网络架构角度看

智能一体化监控平台的网络拓扑中心架构图记录了云平台的全景拓扑结构,以树形结构,全景化的展示出设备之间的逻辑关系,监控整个云平台中包括各个演播室、非编制作机房等主要设备实时运行状态。可有效了解网络系统,清晰直观展现和管理网络架构。

3从故障监测、管理角度看

智能一体化监控平台全面采集设备资源、应用、服务等告警信息,配置多种告警管理机制,根据业务饱和度等因素动态设定报警阈值,对运行状态进行量化评估,帮助运维人员科学决策。

3.2 智能运维过程管理平台

智能运维过程管理平台对服务请求、事件、问题、变更、应急等流程进行管理,有助于构建量化的服务质量管理绩效体系,跟踪和监控运维服务整个过程,改善和提升运维人员的服务能力,体现运维部门价值。


以服务和事件管理为例:服务台通过7*24小时电话和微信群受理用户的服务请求,通过指导帮助、安排专家、追踪回溯等手段为用户提供支持。通过服务台统一管理IT事件,串联所有人、事、物,定期产生运维管理报告。事件管理目的是迅速恢复系统的正常功能,避免业务中断。服务台根据事件信息将其分配给具体的工程师进行处理,处理完成后要反馈到编辑进行确认后关闭事件,完成一个标准的事件处理流程。


4 智慧运维亮点案例



日常巡检是运维人员每天需要完成的例行工作,而这项日常操作耗时烦琐,并且由于运维人员的责任心、技术水平等原因,日常巡检的效果也不同。针对这一问题,我们利用智能运维监控平台将繁琐的人工巡检工作自动化,避免人为操作的疏漏,大大提高运维效率和效果。

我们通过智能运维监控平台,指定需要巡检的设备、应用及每天的巡检时间和次数,系统按照巡检模板定时巡检并自动把超过预设阈值的告警信息发送到指定邮箱里,让运维人员不论身处何地,都能及时了解系统日常运行情况。通过自动化过程减少了运维人员的重复工作,使运维人员可以专注于其他更有价值工作。

例如,河北台云平台构建3个节点的HIVE服务集群,实现PAAS高可用。当1个服务节点宕机时,HA机制保障业务不受影响,但2个节点同时出现问题,就会导致业务中断。所以对3个HIVE节点的运维工作尤为重要。

1.png



上图就是因HIVE01节点宕机,监控平台触发系统告警,同时以邮件告警方式发送到运维工作人员手机上,运维工程师及时把服务IP迁移到HIVE02节点上,保障业务不受影响,再尽快修复HIVE01节点,确保融媒业务的正常运行。

2.png



随着融合媒体平台规模越来越大,每天系统会产生大量的告警,很多告警都属于常规性告警,如果每个告警都由运维人员检查、分析、判断,往往会力不从心,甚至耽误处理重要问题。我们通过智慧运维系统进行策略配置,当产生告警后,根据预先配置的策略,自动生成工单,不同的告警等级进行不同的工单、派单处理,有效地将服务台和服务请求、事件、问题、变更、发布流程整合,使运维服务过程有统一的任务优先级排序、跟踪和评估/审批,运维人员只需要根据工单进行处理即可。从而提高运维人员工作效率,帮助运维人员在海量的告警中,快速定位重要故障,有效缩短排障时间,解决运维难题。


5 结束语

河北台智慧运维系统是建立运行维护服务能力体系的重要支撑和辅助手段:智能运维监控平台全面对云平台资源进行监控,掌握系统数据,并对数据进行智能分析,预测系统未来运行态势;智能运维过程管理平台处理事件、问题、变更、发布等运维活动,规范运维流程,总结运维经验。通过智慧运维系统,河北台极大提升了运维服务能力,保障了融合媒体云平台安全、高效运行。


分享到

您还未登录,登录后将直接提交信件!

取消确认