项目背景
南方电网广东公司隶属中国南方电网有限责任公司,直接管理广东 全省 19 个地市供电局,以及电力调度控制、电网规划、信息、通信、基建、物 资、科研、教育培训、综合能源等多家中心机构和直属单位。
“十三五”信息化规划中,南方电网集团提出了通过构建“厚云薄端” 的“南网云”来推动公司 IT 架构升级,以快速响应多元化业务发展的需要。 随着南方电网精益化战略的深入推进和竞争性业务的渐次展开,亟需通 过“南网云”的建设来提升信息化水平,缩短应用上线周期,快速响应业务 需求和市场变化,支撑业务创新,同时应对公司集约化带来的挑战。 为积极遵循南方电网集团提出的“南网云”顶层设计统一技术指导思 想,南方电网广东公司计划稳步、分阶段、有序地推进广东省内的云建设, 并首先选择了清远基地作为试点之一进行建设。
通过项目试点,搭建南方电网广东公司清远基地电力综合服务智慧 行政云,以建设新型的互联网模式业务系统平台为目标,同时集大数据、 物联网、云计算、视频智能分析、G IS、人工智能、无线通信等新技术于一 体,实现应用子系统的互联互通,以及数据集成和数据建模等大数据功 能。智慧行政云平台对业务管控实现智能联动、图形可视、实时调控、高效 运营等,最终满足办公、后勤全面业务的智慧管理,同时可以根据未来业 务规模按需扩展,后续也可以将清远基地智慧应用建设成果进一步推广 至全省各地市局。
需求挑战
十三五”期间,在云计算、大数据等相关技术的推动下,各行各业 都在谋求变化,试图构建新的产业格局,占据产业发展的制高点,对于 南方电网广东公司来说也是如此。但其清远基地信息化建设面临着来 自地域跨度大、异构化管理、利旧观念等问题,企业信息化建设面临巨 大挑战:
- 业务场景多样化: 清远基地智慧应用涵盖食堂、安保、会议、应急仓库四大功能模块的智能化系统基础设施建设,包括人脸识别、车 牌识别、门禁、广播、网络 s Wi-Fi.监控、报警、能源管理等多个应用系统,主要应用于数据中心融合运维、平安城市智能运维、 WLAN 全生命周期管理等场景。
- 数据丰富多样: 业务覆盖视频类、数据类、管理类三大类,其中视频类业务为低优先级(be)、数据类为中优先级(af)、管理类业务为高优先 级(ef)。因视频业务多线程调用视频时可能导致流量爆满,因而需要对视频流量进行限速。
- 存量复杂: 清远基地现有环境存在近百台异构的服务器、网络和存储设备,数据中心环境复杂,软件平台多样,业务种类繁多;现有 服务器种类和存储涵盖了多个厂商的产品,其种类也非常多;而且服务器的型号和性能也参差不齐;甚至可能出现即将过保或 淘汰的产品到当今主流的产品都有的情况。存量设备的存在和不断增加及变化,容易造成管理人员缺乏对基础架构资源集中 管理的情况。
- 运维难度大: 这些现状直接导致了对管理人员的技能需求相对较高,要求他们熟悉各类型的技术。而实际情况是,管理人员疲于应付日常 维护工作,很难及时兼顾其他工作,具体表现在对异构设备和系统的性能指标不能有效和集中的进行监控,对服务器的补丁维护、 软件部署、备份、容灾等方面都不能进行集中的管理,雎造成运维工作做得不够理想,并且运维成本也很高。 目前信息化建设所存在的短板,诸如业务需费口问题响应藏慢、CSGII 系统架构复杂、问聞立难、开期期长、系统应用质 量有彻高、持续改进能力欠缺、自主可控度不足等问题也需要试点项目的建设来尝试痈 smo 解决。
解决方案
本项目根据将云平台建设为新型业务系统平台的目标,同时具备高度的可扩展性和可升级能力,满足业务系统的稳定运 行和业务升级。
结合 IT 的信息化建设现状、用户需求以及其整体的标准要求,需要对计算、存储、网络资源进行较彻底的云化,通过建设 云平台以满足各方面的要求。针对南方电网广东公司的具体情况及需求,九州未来为其打造了一套基于 OpenStack 的智慧行政 云解决方案,如图 1 所示。
云资源管理平台(laaS)实现对计算资源、存储资源以及网络资源的整合,形成统一的逻辑资源池,对外提供计算、存储 及网络服务,其中计算服务提供裸机、KVM 虚拟机、VMware 虚拟机 3 类服务;存储服务基于集中式存储、分布式存储技术提供 块存储、对象存储以及文件存储 3 类服务;网络服务提供网络、子网、路由器、负载均衡、防火墙等服务。
平台即服务层(Paas)将各类平台软件和应用程序归类为基础组件、技术组件和业务组件。其中基础组件提供标准通用 服务,包括关系型数据库、大数据、数据缓存、应用中间件、消息中间件、容器、工作流引擎等,实现弹性计算、弹性扩容、消息 通信、数据存储等功能,所有组件已接口服务形式对外提供服务,云平台需提供服务集成服务实现服务的统一管理,并提供 持续集成和连续交付服务,为应用提供开发、运行、部署等方面支撑。(如图 2 所示)
云管理平台(CMP)主要提供云资源管理、云运维管理、云运营管理和接口管理几大功能模块。云管平台还对交付的资源使用 情况进行持续的计量和计费统计,提供全局、部门、项目等维度的用量统计分析服务,通过内置的计费管理、配额管理、计量统计及 报表功能,为 IT 运维、1 傕理和 IT 用户提供多种类型的统计分析报表,提升 IT 服务管理的效率和水平。 云管平台不仅为 IT 运维管理提供了高效率、自动化的管理手段,还为业务用户提供了界面友好的自助服务入口。业务 用户在服务目录中选择所需服务,即可自助完成云资源的申请,经流程审批,系统即自动完成所申请的资源的交付,实现了 IT 服务使用和交付的云化。 作为企业级运维体系的重要基础平台,云管平台还提供了完备的开发接口,支持通过 REST API 和更多类型的基础资源 和第三方运维管理平台集成,如:应急指挥系统、视频、食堂、安保、会议、应急仓库系统等。通过持续的集成建设,最终形成云 环境下流程驱动的一体化运维体系,如图 3 所示。 通过该项目建设,南方电网广东公司清远基地电力综合服务智慧行政云成为了 OpenStac 曜常怦面高可用与高性能的云管 理平台,并实现了多项技术创新:
- 平台高可用 整个 OpenStack 云平台的高可用主要依赖控制平面的高可用,设计难点在于如何平衡关键服务可靠性与平台可扩展性之间 的矛盾,同时从计算、网络、存储等模块优化 OpenStack 平台消息机制,经过优化后,平台组件间的冗余消息大幅减少,消息转发 效率大幅提升。管理平台具有高可用机制保证,实现集群部署,釆用分布式的架构,组件具有多活的特点。
- 深入优化计算、存储以及网络性能 从 KVM、OVS、Ceph 等最底层技术开始源代码级优化,最终提供接近物理硬件能力的计算、存储和网络性能,为本项目各个 核心业务系统提供了高性能、可靠的服务平台。
- 智能平台监控及告警 一旦物理机、OpenStack!艮务、或 Ceph 集群出现异常,Zabbix 均能监控到并自动报警.将报警信息以短信、微信的形式发送 到相关运维人员的手机上。通过与九州未来的 Zabbix^控集成,实现现场大屏幕、指示灯,及自动短信发送。
- 多租户管理及隔离 本项目对 OpenStack 安全是主要从权限管理和网络安全管理来控制对云平台安全的保证。实现对 OpenStack 各个组件之间 的 API 调用进行身份识别,通过用户,租户或项目(角色控制服务消费者对各个服务资源的访问权限。此外,运用 OpenStack 实现 三层分级账户权限管理,为不同权限级别的用户呈现不同的导航界面,支持每个业务项目组来部署与修改自己的虚机。
项目成果
随着国家电力体制改革,售端市场化竞争态势的形成,要求电网企业信息化能力的快速升级,以此来应对“一主两翼、国际 拓展”产业布局所带来的业务发展和外部环境的快速变化。 同时电力信息系统由分散部署到统一部署的转变,面临着海量数据的存储能力和计算能力的瓶颈,以及系统的访问压力 大等问题。
基于此,结合电力系统"分级管理、分层控制、分布处理"的特点,提出一种基于 OpenStack 且兼容异构资源的清远基地私 有云平台设计方案,进而充分发挥数据的高阶业务价值,服务于电力业务,提升南方电网广东公司的自主创新能力,保持市场 竞争力。
本次南方电网广东公司清远基地电力综合服务智慧行政云,实现了计算、存储、网络资源彻底的云化,并将全部业务系统 迁移到云计算平台中,在试运行过程中,不仅稳定可靠,更大幅提升了运行效率,后续还将在此基础上开展运维自动化相关工 具的研究,并实现充分与大数据平台、物联网平台等技术结合。 该 OpenStack 云平台将为本项目进一步实现业务创新提供稳定灵活、自主可控的基础架构支撑。
南方电网广东公司清远基地电力综合服务智慧行政云在 2019 年将依托省公司、东莞局的成功经验,面向全省各地市局、 区局推进改工作,初步预计在未来 2〜3 年内完成全省技改建设工作。
平台建设不是对原有系统的颠覆,而是在原技术体系外用云计算技术、云服务理念构建的技术创新平台,与原技术体系 协同发展、互为补充,建立传统应用加云应用架构的双模式 IT 服务体系,打造核心技术竞争力,支持业务创新发展,保障业务正常运营。