随着Kubernetes得到越来越广泛的采用,企业软件系统正在向复杂的云原生架构进行革命性转变。应用形式呈现有Web、APP、小程序等多种形式,访问的网络有4G、5G、Wi-Fi等。企业用云也从单一云时代,逐渐来到混合多云时代。在这些庞大复杂的多云环境中,各种模块、这种语言开发的应用程序或服务的数量与日俱增,如何追踪它们运行在何处、性能如何、如何快速实现故障定位、打通端到端的完整请求流程,并持续检查海量高速数据流以识别系统中的已知和未知问题,显得至关重要。
因而在云系统的不断发展,运维对象日益复杂,IT技术架构变化增大,主动感知并迅速定位、排障的难度变得越来越大,可观测性由此应运而生,同时也被视为未来云环境生产部署不可或缺的技术支撑,是保障并提升云系统稳定运行能力的关键要素。相比于传统监控,可观测性不仅能够主动发现问题,还能够快速定位问题、找出问题产生的根因。
优维在2021年着手可观测领域研究,是行业内领先进入可观测实践的厂商。优维深知,当下客户对于IT运维的需求已然发生改变,在云原生可观测场景下,企业运维需要具备多项能力,如全局数据采集与分析能力、数据有机关联融合能力、故障快速定位处理能力等等。从经验的角度来讲,这些不是简单的工具组合能够完成的,建设全方位超融合持续可观测平台成为必要。因此,优维在2021年率先提出“超融合架构”,正式推出Hyperlnsight超融合持续观测解决方案,以融合为基础,实现IT资源和业务的全方位可观测。该方案已成功落地于银行、证券、基金几大典型行业,真正帮助客户构建可观测性能力,全面保障业务运行质量。
一、什么是超融合架构?
Hyperlnsight超融合持续观测解决方案,横向融合市场主流IT系统架构,从传统巨石IT架构到现今的分布式微服务架构;纵向融合从基础laaS、PaaS层到应用层及业务层,实现从普通运维监控到系统洞察与业务洞察的提升。
数据存储融合:laaS/PaaS/Saas层所有监控对象采集的动静态数据统一存储
应用场景融合:基于统一的数据底座,故障根因、事件关联、可用性分析、容量管理等一体化
业务技术融合:以业务服务为核心视角,以应用架构为桥梁,打通上层业务监控到底层技术设施监控链路,故障定位更简单
开源生态融合:200+开箱即用的套件,一键开启开源组件监控,融合Zabbix和Prometheus等主流监控方案
跨云与多云融合:无缝支持公有云、私有云、混合云等复杂的云架构,自身也支持云化部署
二、解决方案简介
HyperInsight,是优维科技倾力打造的一款基于EasyCMDB的IT资源架构上构建可观测能力的新一代监控平台,提供云原生计算、网络、存储的能力,屏蔽底层基础设施复杂性,支持多云、多集群全生命周期统一纳管,同时为不同角色提供不同的监控视角,全面覆盖了最终用户体验、应用性能、业务性能、基础架构、云平台等客户 IT 环境,具有全量的数据采集、全链路数据事务追踪、代码级根源分析、调用链日志溯源、健康度和智能告警能力,帮助企业深度洞察IT资源和业务系统性能。
解决方案特性
一个好的可观测平台,先要具备全局的数据采集能力,二是要以运维视角重塑产品,三是要对这些被采集的数据进行有机的关联和融合,四是基于这些数据做深入挖掘。
优维Hyperlnsight超融合持续观测平台用六大特性,诠释如何提升可观测性。
与企业现有IT资源深度融合
通过融合来自用户端到网络、到云端、中间件、基础设施、设备、场景、业务等多个方面的数据,满足企业在数字体验、业务、网络性能、应用性能、安全等所有方面的监控需求。
全量数据采集
对于基础设施、平台资源、应用资源支持企业对指标、事件、日志、分布式跟踪等数据的全量采集,保证数据的完整性,为实时感知业务健康度打下坚实的数据基础。多种采集方案包括:Promethues Exporter、Elastic Metricbeat等。
多维数据分析
有效借助EasyCMDB中的资源数据对资源的健康状态进行关联分析,作为新一代的IT资源元数据与监控数据的超融合式存储,优维自研的EasyTSDB为平台提供强大的数据分析能力。
主动感知观测
统一事件中心融合故障发现和故障处理流程,基于全栈数据融合对故障根因快速定位,以及对变更影响进行水平和垂直剖析。
可视化业务分析
融合分布式链路追踪为业务提供指标体系、应用逻辑视图、应用运行视图、应用部署视图进行可视化分析,助力企业管理人员快速掌握业务健康情况,快速分析业务系统问题。
无缝对接生态
支持公、私、混合云等部署架构。内置200+开箱即用套件,一键启用对常用中间件的观测方案和第三方监控系统的数据对接。
从融合统一、数据关联性分析到主动观测,Hyperlnsight超融合持续观测平台完成了从看得更多到看得更透彻的整个过程,最终提升可观测性。
四、解决方案优势及价值
1.超融合可观测6大优势
三维立体观测:Hyperlnsight通过实例、指标、时段的三维立体无死角的业务观测,协助业务系统的可用性达电信级标准。
故障快速定位:以事件为驱动,结合全栈数据融合,一键还原故障现场,彻底解决故障根因分析无从下手、故障恢复时间长等问题。
告警智能定级:基于应用的IT资源图谱的多层融合,可实时动态评估故障对业务的影响级别,避免数据孤岛,资源告警不再孤立于业务场景。
开箱即用:集成200+监控套件,一键开启监控开源中间件。摆脱建设多个监控系统的困扰,结合Hyperlnsight的智能监控推荐,轻松提升监控覆盖面。
全方位监控:以应用为中心,以融合为基础,实现覆盖基础设施、平台资源、应用资源的全方位监控,解决数据分散、融合难的问题。
告警降噪:结合应用的IT资源图谱,可轻松完成上层业务的告警分组的纵向收敛、抑制关联告警的横向收敛、停机屏蔽告警的定点收敛等需求,从而实现告警降噪,避免被告警洪峰淹没。
2.实现价值
产品价值:不论规模如何,HyperInsight可实现对IT资源和业务的深度洞察。不管是10000+的主机,还是数百个业务;不管是数十个告警平台,繁多的开源监控组件,还是复杂的混合部署架构,都可尽收眼底,实时监控。
客户价值:HyperInsight在资源监控覆盖率、告警准确率、告警响应率达到百分之一百,同时具有分钟级的故障定位和告警恢复,业务可用性达到99.9%。
五、功能介绍
HyperInsight是一个集三维观测、故障快速定位、告警智能定级、数据采集分析,打破运维孤岛、避免重复建设的超融合可观测平台。从孤立的工具走向融合统一,从监控走向可观测,从应用融合出发,HyperInsight展现出多项“超能力”,比如数据采集、数据分析、应用服务、告警事件跟踪闭环等等。
1.数据采集:EasyHub与社区力量
HyperInsight 支持用户对指标(Metric)、事件(Event)、日志(Log)、分布式跟踪(Tracing)等数据来进行监控采集,除了使用产品内置插件或者用户自定义套件外,优维的EasyHub资源共享平台提供了上百个IT资源监控套件,而且 HyperInsight的数据采集服务兼容Promethues Exporter、Elastic Metricbeat等采集方案,用户可借助开源社区的力量,实现快速的现网监控数据采集与上报,快递降低实施成本。
2.数据分析:EasyTSDB超融合存储
HyperInsight 最大的特点在于可有效借助 EasyCMDB 中的资源数据对资源的健康状态进行关联分析,作为新一代的IT资源元数据与监控数据的超融合式存储,优维自研的EasyTSDB为其提供了强大的数据分析能力。
3.应用服务:一键洞悉 一镜到底
优维持续坚持以应用为中心的产品建设思路,在坚实的数据采集与分析能力基础上,和传统的基础设施监控系统相比,HyperInsight更加聚焦在对应用服务的健康治理能力。
4.应用服务地图
HyperInsight为整个业务系统提供了应用服务分析地图,在分析地图上,用户可以快速识别系统中的高危服务,可一键洞悉对服务的运行实例、吞吐量、接口时延、调用失败率等情况。
应用服务地图通过把同一个系统中的服务调用平铺出来,并且通过设置吞吐量、失败率、或者响应时间来对异常的服务进行过滤,颜色越深时,代表该指标的数值越大;同时右侧的服务和接口排行榜也会根据设置的指标进行排序,用于快速定位高危服务。
5.从发现、分析到治理的完整闭环
应用服务地图提供了全景式的服务健康情况,一旦从服务地图,或者监控告警中发现异常的服务,HyperInsight可以通过服务的实例信息、调用分析、接口列表、告警事件等多个维度对异常的服务进行分析。
从服务的接口列表去查看接口的调用情况,包括接口的响应时延和失败率,如果发现了时延异常或者失败率高的接口时,可以点击该接口进入接口详情,进一步分析接口的健康状态。
HyperInsight 提供了强大的接口调用链路跟踪能力,针对异常的接口调用,可以通过时间范围、业务系统、应用服务等多个维度进行搜索和过滤,并且在调用链分析视图上提供丰富的辅助信息,例如产生的事件、关联的基础设施、服务地图、跟踪原始日志、堆栈信息等等,帮助用户精确定位问题根源。
得益于EasyCMDB的强大的元数据管理能力,用户对服务运行架构有清晰的认知,从应用系统到服务接口、到底层的基础设施一览无遗。
6.让告警设置不再烦恼:可视化告警规则
告警设置与通知策略一直是企业监控系统配置里面最为复杂的一环,大量的告警规则随着生产服务的上线而产生,随着时间的推移,维护的工作变得越来越困难,单一指标重复告警现象居高不下,也容易造成告警风暴,导致监控系统的作用下降,观测效能大打折扣。
HyperInsight 为了彻底解决这些问题,创新地推出可复用、可视化的全链路告警规则。
①全链路告警设置
HyperInsight 支持用户全景式地设置告警规则,全链路式告警规则的设置大幅度提高用户的使用效率和降低配置复杂度:
通过监控目标设置告警的实例范围;
设置触发告警的条件,例如指标阈值等;
提供优维独有的告警分析能力,对产生的告警事件进行丰富(例如通过IP,从CMDB中查询和补充主机负责人信息到告警信息等)或者分组压缩(例如同一个主机上的不同告警事件进行分组压缩);
设置告警通知,设置通知对象,例如负责人、指定用户或者用户组,以及通知方式,例如手机短信、电话、钉钉、企微、邮件等。
②可复用的创新设计
从监控目标到告警通知,4个阶段的策略均可以在任意的告警规则设置中重复使用,例如设置主机监控的实例范围,可以直接创建新的监控目标策略,也可以直接绑定之前已经创建的策略,来选择需要告警的主机实例。
又或者是通知策略,在生产使用的场合,通知策略复用程度和监控目标一样非常的频繁,例如所有的基础设施告警都会通知基础设施的运维小组,那么基础设施运维小组就是一个复用度很高的通知策略,在很多基础设施的告警规则中被引用。
7.告警事件跟踪与闭环
在设置告警规则后,处理告警触发的监控事件是大部分企业用户日常面临的工作之一,HyperInsight为用户提供了强大的事件处理中心,帮助用户快速处理、分析告警事件,并且希望通过事件中心,进一步提供事件治理的能力。
8.事件跟进:监控值班的驾驶舱
HyperInsight提供事件跟进的值班控制台,值班人员和业务人员可以快速地从控制台中,根据事件的不同状态来过滤需要关注的告警事件,例如值班人员一般会比较关心「待我响应」的告警事件,快速对线上产生的告警信息进行下一步的处理。
9.事件流转:跟踪、分析、定位与闭环
HyperInsight认为事件的闭环才是事件中心最为重要的一步,因此告警事件详情提供非常强大的告警跟踪、分析和定位、最后闭环的能力。
首先,HyperInsight提供了事件的流转全景图,帮助用户快速了解当前事件的前世今生。
然后,HyperInsight提供了事件的基本信息、指标快照信息以及影响分析来帮助用户对告警进行跟踪、定位和分析。指标快照完整地提供了指标的告警时长范围和严重程度。影响分析则是借助EasyCMDB的能力,可以快速地分析出告警资源对周边资源的影响,例如主机宕机后,对主机上运行的哪一些应用造成的影响等。
最后,HyperInsight提供了整个事件流转和一键闭环的能力,帮助用户快速对事件进行处理和完结。
作为复杂业务的显微镜,HyperInsight从监控到洞察,从全局到细节,通过轻松部署、最少维护和全方位的覆盖范围,全自动化无死角监控,提供全方位IT资源和业务的可观测性,助力企业提升数字化体验,降低运维成本,提升工作效率,为数字化转型赋能升级。
客户评价
客户1:
优维监控平台是面向应用的立体化监控平台,实时采集应用及相关的基础设施资源监控数据进行分析和展现,当发生异常情况时进行及时准确的报警;结合IT可视化能力,能够实时在系统墙/应用墙上呈现故障情况。是一套好用、有用的运维可视化产品。——百丽时尚集团科技中心运维负责人 袁斯高
客户2:
优维可观测能力帮助我们的团队将运维能力提升到了一个全新的水准。在双方的合作进程中,优维的产品服务改变了我们的工作方式,从被动模式到主动模式的切换过程很轻松,这让我们的工作变得更精简高效。我们在合作中需要解决的问题不少,但实际上我们彼此都能沉浸到对方的团队中去,然后在相对好的解决方案的基础上努力衍生出更好的解决方案。优维的可观测是从产品到服务的可观测。——某全国性大型综合类证券公司IT运维负责人 蔡华
客户3:
我司DSM平台建设项目与优维科技达成合作。在优维团队的高度重视和积极配合中,秉承坚持“以客户为中心”的理念,协助我司完成了DSM平台建设的同时,实现了锦江酒店(中国区)DevOps运维体系的改造。
目前锦江酒店(中国区)线上系统的监控、发布变更、CMDB资产管理、K8S监控纳管已全面接入DSM平台中,未来DSM平台将作为锦江酒店版块运维的核心平台投入使用。
优维可观测产品很好地奠定了锦江酒店(中国区)DSM平台顺利迁移落地的基础,锦江酒店(中国区)运维整体能力及规范得到大大提升。希望优维科技一如既往地大力支持我司数字化转型建设保障,在更多领域开展深度合作。——锦江酒店(中国区)有限公司 信息安全&运维架构副总监 唐雅文
七、权威认可
去年5月,优维科技“Hyperlnsight超融合持续观测解决方案”通过可信云权威认证,获得中国信通院和云计算开源产业联盟联合颁发的可观测性平台“先进级”证书,成为国内可观测性领域首批通过可信云认证的DevOps厂商之一。
作为面向云计算服务和软件的权威评估系统,可信云推出的《可观测性平台技术要求》标准评估真实、客观地反映了可观测性工具和平台服务商的能力水平,为企业软件系统稳定性保障提供权威指导。经中国信通院可信云评估证明,优维科技Hyperlnsight超融合持续观测解决方案在数据采集、数据处理、数据应用、平台运维共4个模块的测试中,满足可观测性平台先进级能力要求,意味着优维科技在可观测性领域已经达到业内领先水平。
八、写在末尾
云原生时代,以运维的视角、被动的解决故障为目标的监控正在逐渐退出舞台,而适配IT架构变革和云原生技术实践、协同开发和业务视角、具备广泛和主动能力的可观测性,正在冉冉升起。通过对指标(Metric)、事件(Event)、日志(Log)、分布式跟踪(Tracing)四类数据价值的不断探索,优维Hyperlnsight超融合持续观测解决方案的可观测能力正在逐步强化,并将其应用于当今数字化转型组织所需的全部业务、开发、运维场景。
未来,随着云原生技术的应用升级,优维将不断实现Hyperlnsight可观测能力创新,为广大企业数字化转型提供与时俱进的超融合持续可观测性解决方案,提高研发运维效能,实现云原生时代的业务创新与增长。
责任编辑:kj005
文章投诉热线:156 0057 2229 投诉邮箱:29132 36@qq.com