科技
设为书签Ctrl+D将本页面保存为书签,全面了解最新资讯,方便快捷。
业 界/ 互联网/ 行 业/ 通 信/ 数 码/ 手 机/ 平 板/ 笔记本/ 相 机
当前位置:科技 > 快讯 >

华为云首次解读高可用模型,以确定性运维保障云上稳定可靠

华为云首次解读高可用模型,以确定性运维保障云上稳定可靠
2023-04-12 20:48:25 来源:财讯网

日前,GOPS全球运维大会在深圳正式召开。GOPS 全球运维大会由高效运维社区(GreatOPS)、开放运维联盟(OOPSA)和 DevOps  时代社区联合主办,面向互联网、金融、通信及传统行业广大运维技术人员,旨在传播先进技术思想和理念,分享业内最佳实践。

会上,华为云 SRE 首席架构师李浩  发表题为“ 基于量化分析设计高可用架构,构建确定运维能力”的主题  演讲  深入分享确定运维能力如何为行业 业务构建稳定可靠的云底座 同期,华为云还举办了“维享会”精英沙龙,携手趣丸、丹姿、金蝶、小鹅网络等企业的运维监、技术负责人,共同针对不同行业、不同规模、不同数字化转型阶段的企业运维经验进行交流分享。

维享会·精英沙龙(GOPS专场)

庞大、复杂  快速变化,成为系统运维的关键

在千行百业的数字化转型中,软硬件迭代加速,企业的业务系统越来越庞大、复杂且处于快速变化中,保障系统的稳定可靠,是企业业务最基本的“生命线”。

为此  华为云  SRE 提出  确定  运维”能力 体系, 这是面向云时代的高效能、高质量的运维体系 ,也融合 “高可用架构”、“动态风险治理”、“高度智能运维框架”形成的有机结合体。通过“确定运维”,华为云将业务高速发展带来的“不确定”变成SLO的“确定”。 其中,通过高可用设计消除风险因素,是达成确定的前提。

华为云主张的确定运维能力体系

“运维也许被认为是默默干活的‘骆驼’,但是未来不能是‘骆驼’,因此要正本清源,在前端架构上把交付产品设计好。一个高可用的架构才有现网好的质量结果,现网的高质量结果,不是仅靠简单运维出来的,而是前端设计和后端运维一起努力得到的效果。”李浩在演讲时表示。

 用数学工具解决工程问题  建立云系统和云应用的高可用模型

设计确定高可用架构,首先要解决的就是如何度量的问题。在架构设计中,华为云使用了系统可用度评估模型,该模型是由三个决定因素构成:失效率,即中断次数;恢复时长,包括发现时间、定界时间、恢复时长;故障影响,即每次中断影响的租户数量。通过这三个因素,可计算出系统最终的可用度  基于这一评估模型,运维团队可更有 针对   进行高可用设计,追求系统整体可用度的最优 。

华为云SRE首席架构师李浩

“SLO的优秀结果绝对不是靠运气实现,系统的可用一定需要靠前端设计出来”。李浩表示,系统的可用度如何,并不是现网通过事件度量出来,而是通过前端设计,在架构设计阶段就保障SLO是可信的。在这个过程中,还可能遇到各种挑战,如质量要素的非线导致的结果不确定、质量要素的数量爆炸、质量要素之间存在相关等问题。

为了解决这些问题,华为云以RBD(Reliability Block  Diagram)模型和马尔科夫模型作为理论基础,对华为云现网长时间运转产生数据进行分析,围绕硬件故障、软件故障、变更问题、过载/安全这四大中断因素,将这些故障的中断次数、中断时长等数据作为模型的基础参数。基于这些方法,可进一步准确统计服务器的可用度,软件bug概率等,从而构建出华为云架构可用度评估模型和技术规范。

华为云通过这样一套工程体系,建立每个云服务的SLO档案,并通过数据分析和量化计算的方式找到系统的短板,支撑高可用方案选型。据介绍,当前华为云已基于该模型解决了大量实际问题,包括集群节点数量设定、多组件复杂分布式系统的组件连接方式等。

面向未来,量化分析模型完整系统还有很多路要走。李浩表示,华为云将持续创新,把各种子模型合并,实现更加完备的、更准确的计算系统可用度。

一切皆服务, 帮助企业构建确定运维能力

为了帮助更多企业构建稳定可靠的云上业务,华为云将自身确定运维实践经验沉淀,以服务的形式提供给千行百业,让运维变革成为企业数字化转型的加速器。

首先,华为云根据与众多企业交流经验梳理出“确定运维能力成熟度模型”,支撑企业评估自身运维的成熟度并识别短板,从而制定符合其需求的运维变革目标和转型、进阶措施,加快提升企业整体运维能力。

确定运维成熟度模型

其次,华为云SRE提供了规划与设计服务,可协助企业应用开发及运维团队规划运维体系蓝图及演进路标  使得企业运维在能力上向确定升级、在组织上向SRE模式转型、在流程上持续优化、在工具上加快智能化,从而持续优化SLO指标、人均维护基线、故障恢复时长,达到高度确定结果。

最后,华为云SRE还提供确定运维专家培训课程,采用理论+案例实战的方式,为企业运维人员深度解读国内外SRE实践的发展方向,分享如何构建与提升软件及系统工程能力,从而帮助企业进行组织与团队能力建设。

从2022年开始,华为云加快携手客户、业界伙伴共创确定运维能力,在全国开展“维享会”(确定运维经验交流分享会)活动。目前,维享会已经开展了30余期,覆盖不同的城市、行业、客户,打造了行业分享运维最佳实践和创新技术的优秀

高效一站式运维, 支撑高可用架构量化分析及能力构建

本次大会,华为云还首次对外展示了云运维中心(Cloud Operations  Center)。作为一体化运维,该可助力企业用户更好实现确定运维,打造高度集中化的运维和管控能力;同时,支持混合云及多云管理,并沉淀SRE最佳实践,实现场景智能化运维全局最优决策推荐等,实现“一站式”的操作能力。

站点健康监测大屏演示效果

面对行业数字化转型和确定下运维需求,华为云 云运维中心将主要助力企业构建6 大运维能力:

故障快速恢复:沉淀多年SRE故障领域知识库,实现故障恢复最优决策和自愈;

变更风险管控:变更风险智能识别和拦截,确保变更过程安全可信;

资源运维管理:高效的资源自动化运维,智能分批灰度,极大提升效率;

评估优化:应用高可用架构自动评估,及时发现问题驱动改进;

全栈可观测:应用资源全场景视角的数据层现,按需自定义看板;

统一运维门户:运维风险、事件、任务等集中可视和操作,一站式完成处理;

在产品架构设计上,华为云以集成促统一,以统一促简化,以数字化使能运维主动管理和优化改进,通过持续治理与敏捷并重,在安全合规的基础上不断提升效率,实现运维竞争力突破。

面向数字化未来,企业的IT运维将迎来更多新变革和新挑战。华为云SRE基于自身数字化转型实践经验,携手客户、伙伴持续开展运维变革与创新,助力运维成为企业业务发展加速器,加速千行百业数字化转型,共同构建“确定”的数字世界。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

关键词:

责任编辑:kj005

文章投诉热线:156 0057 2229  投诉邮箱:29132 36@qq.com
关键词:

金融信创不走回头路,这么做就对了!

2023-04-11 10:30:59金融信创不走回头路,这么做就对了!

走近蓝天使咖啡人形机器人 把握现代咖啡消费趋势

2023-04-06 09:32:15走近蓝天使咖啡人形机器人 把握现代咖啡消费趋势

首个!火山语音立项有声阅读标准,获CCSA工作组一致通过

2023-03-13 15:22:46首个!火山语音立项有声阅读标准,获CCSA工作组一致通过

供应布局,服务加速!浙江中力湖北生产基地正式投产

2023-02-21 17:34:36供应布局,服务加速!浙江中力湖北生产基地正式投产

usmile笑容加,重新定义口腔清洁

2023-02-20 14:45:57usmile笑容加,重新定义口腔清洁

春节红包封面大比拼,科技文化交相辉映,中国广电别具特色

2023-01-18 10:03:57春节红包封面大比拼,科技文化交相辉映,中国广电别具特色

相关新闻

最新资讯