日前,GOPS全球运维大会在深圳正式召开。GOPS 全球运维大会由高效运维社区(GreatOPS)、开放运维联盟(OOPSA)和 DevOps 时代社区联合主办,面向互联网、金融、通信及传统行业广大运维技术人员,旨在传播先进技术思想和理念,分享业内最佳实践。

会上,华为云SRE首席架构师李浩发表题为“基于量化分析设计高可用架构,构建确定性运维能力”的主题演讲深入分享确定性运维能力如何为行业业务构建稳定可靠的云底座同期,华为云还举办了“维享会”精英沙龙,携手趣玩、丹姿、金蝶、小鹅网络等企业的运维总监、技术负责人,共同针对不同行业、不同规模、不同数字化转型阶段的企业运维经验进行交流分享。


(资料图)

维享会·精英沙龙(GOPS专场)

庞大、复杂快速变化,成为系统运维的关键

在千行百业的数字化转型中,软硬件迭代加速,企业的业务系统越来越庞大、复杂且处于快速变化中,保障系统的稳定可靠,是企业业务最基本的“生命线”。

为此华为云SRE提出确定性运维”能力体系,这是面向云时代的高效能、高质量的运维体系,也融合“高可用架构”、“动态风险治理”、“高度智能运维框架”形成的有机结合体。通过“确定性运维”,华为云将业务高速发展带来的“不确定性”变成SLO的“确定性”。其中,通过高可用设计消除风险因素,是达成确定性的前提。

华为云主张的确定性运维能力体系

“运维也许被认为是默默干活的‘骆驼’,但是未来不能总是‘骆驼’,因此要正本清源,在前端架构上把交付产品设计好。一个高可用的架构才有现网好的质量结果,现网的高质量结果,不是仅靠简单运维出来的,而是前端设计和后端运维一起努力得到的效果。”李浩在演讲时表示。

用数学工具解决工程问题建立云系统和云应用的高可用模型

设计确定性高可用架构,首先要解决的就是如何度量的问题。在架构设计中,华为云使用了系统可用度评估模型,该模型是由三个决定性因素构成:失效率,即中断次数;恢复时长,包括发现时间、定界时间、恢复时长;故障影响,即每次中断影响的租户数量。通过这三个因素,可计算出系统最终的可用度基于这一评估模型,运维团队可更有针对性进行高可用设计,追求系统整体可用度的最优

华为云SRE首席架构师李浩

“SLO的优秀结果绝对不是靠运气实现,系统的可用性一定需要靠前端设计出来”。李浩表示,系统的可用度如何,并不是现网通过事件度量出来的,而是通过前端设计,在架构设计阶段就保障SLO是可信的。在这个过程中,还可能遇到各种挑战,如质量要素的非线性导致的结果不确定性、质量要素的数量爆炸、质量要素之间存在相关性等问题。

为了解决这些问题,华为云以RBD(Reliability Block Diagram)模型和马尔科夫模型作为理论基础,对华为云现网长时间运转产生数据进行分析,围绕硬件故障、软件故障、变更问题、过载/安全这四大中断因素,将这些故障的中断次数、中断时长等数据作为模型的基础参数。基于这些方法,可进一步准确统计服务器的可用度,软件bug概率等,从而构建出华为云架构可用度评估模型和技术规范。

华为云通过这样一套工程体系,建立每个云服务的SLO档案,并通过数据分析和量化计算的方式找到系统的短板,支撑高可用方案选型。据介绍,当前华为云已基于该模型解决了大量实际问题,包括集群节点数量设定、多组件复杂分布式系统的组件连接方式等。

面向未来,量化分析模型完整系统还有很多路要走。李浩表示,华为云将持续创新,把各种子模型合并,实现更加完备的、更准确的计算系统可用度。

一切皆服务,帮助企业构建确定性运维能力

为了帮助更多企业构建稳定可靠的云上业务,华为云将自身确定性运维实践经验沉淀,以服务的形式提供给千行百业,让运维变革成为企业数字化转型的加速器。

首先,华为云根据与众多企业交流经验梳理出“确定性运维能力成熟度模型”,支撑企业评估自身运维的成熟度并识别短板,从而制定符合其需求的运维变革目标和转型、进阶措施,加快提升企业整体运维能力。

确定性运维成熟度模型

其次,华为云SRE提供了规划与设计服务,可协助企业应用开发及运维团队规划运维体系蓝图及演进路标使得企业运维在能力上向确定性升级、在组织上向SRE模式转型、在流程上持续优化、在工具上加快智能化,从而持续优化SLO指标、人均维护基线、故障恢复时长,达到高度确定性结果。

最后,华为云SRE还提供确定性运维专家培训课程,采用理论+案例实战的方式,为企业运维人员深度解读国内外SRE实践的发展方向,分享如何构建与提升软件及系统工程能力,从而帮助企业进行组织与团队能力建设。

从2022年开始,华为云加快携手客户、业界伙伴共创确定性运维能力,在全国开展“维享会”(确定性运维经验交流分享会)活动。目前,维享会已经开展了30余期,覆盖不同的城市、行业、客户,打造了行业分享运维最佳实践和创新技术的优秀平台。

高效一站式运维,支撑高可用架构量化分析及能力构建

本次大会,华为云还首次对外展示了云运维中心(Cloud Operations Center)。作为一体化运维平台,该平台可助力企业用户更好实现确定性运维,打造高度集中化的运维和管控能力;同时,平台支持混合云及多云管理,并沉淀SRE最佳实践,实现场景智能化运维全局最优决策推荐等,实现“一站式”的操作能力。

站点健康监测大屏演示效果

面对行业数字化转型和确定下运维需求,华为云云运维中心将主要助力企业构建6大运维能力:

故障快速恢复:沉淀多年SRE故障领域知识库,实现故障恢复最优决策和自愈;

变更风险管控:变更风险智能识别和拦截,确保变更过程安全可信;

资源运维管理:高效的资源自动化运维,智能分批灰度,极大提升效率;

韧性评估优化:应用高可用架构自动评估,及时发现问题驱动改进;

全栈可观测性:应用资源全场景视角的数据层现,按需自定义看板;

统一运维门户:运维风险、事件、任务等集中可视和操作,一站式完成处理;

在产品架构设计上,华为云以集成促统一,以统一促简化,以数字化使能运维主动管理和优化改进,通过持续治理与敏捷并重,在安全合规的基础上不断提升效率,实现运维竞争力突破。

面向数字化未来,企业的IT运维将迎来更多新变革和新挑战。华为云SRE基于自身数字化转型实践经验,携手客户、伙伴持续开展运维变革与创新,助力运维成为企业业务发展加速器,加速千行百业数字化转型,共同构建“确定”的数字世界。

推荐内容