ad

网络智能运维助力运维效力提升-英雄云拓展知识分享

匿名投稿 268 2024-02-01

【摘要】 现在云服务数量的增长,带来了价值,但随之而来的还有风险。面对重重挑战,华为云必须构建一套覆盖全面的监控体系能力,从基础设施层到云网络服务,再到上层应用对网络的体验的感知,都需要进行精确测量,确保覆盖完备性。

      云服务数量的增长,带来了开发效力提升、运维本钱下降等巨大价值,极大提升用户的便捷性,牵引着愈来愈多的传统业务都在向公有云转移。网络作为连接万物的基础,其稳定性对云上业务相当重要。Cloudscope公有云运维产品因云而生,其中的网络运维服务从设计之初瞄准网络运维自治能力,沉淀了从数据底座、监控告警、诊断分析、自动化能力展开的等一系列网络领域的平台能力,为公有云业务稳定性保驾护航。

网络智能运维助力运维效力提升-英雄云拓展知识分享

      网络自治打造智能运维技术之巅
      网络监控平台:监控系统作为云的眼睛,其敏锐度、视野广度都非常重要,故障慢发现1min可能对上面运行的业务来说损耗都是巨大的。对故障,发现不是终究目的,而是要快捷恢复来下降MTTR,快捷高效率的故障诊断有益于故障的快捷恢复;
      网络自动化平台:业务发展进程中存在着大量的网络交付、变更、优化整改等场景,人工 vs 自动化不单单是效力问题,交付时间越短意味着库存可以紧缩的越低,终究节省了大量本钱。在自动化平台中我们构造了一套安全可信的自动化编排引擎,上面可以承载了网络交付、变更、自愈和诊断等任务可以编排的场景;
      网络数字中台:数字化程度决定了运维、运营团队的运作效力,无处不在的流程、故障warroom需要完善、实时准确的数字化来支持问题分析、决策划作,在华为云我们构造了丰富的数字化能力来支持不同场景的业务;
      网络大脑:网络大脑是全部网络运维平台的关键,其中承载了大量的AI算法库、知识经验库,在运行进程会结合数字中台的配置、监控、状态等数据进行分析决策,经过自动化平台实现故障切换、自动隔离、路径调度等智能化场景能力;
以数据驱动业务,沉淀孪生网络数字中台
      为了支持网络运维业务的快捷发展,我们分层、分领域来构造数据的平台化能力,将不同类型数据存储在不同介质中来满足业务场景化需求,例如监控数据以时序数据库为主、OLAP关系型数据(多维实时聚合场景)为辅,资源、配置数据则使用关系型数据和文档型数据库存储,数据间的关联关系、拓扑等数据保存到    资源库是网络运维的基础,其涵盖了基础设施网络的装备、链路,也包括虚拟化网络的集群、实例对象等,为了保护这些数据的实时性和准确性,在其上有一套完全的交付、巡检验收、入库、维修、下线等流程系统来支持资源的生命周期管理;
      计划库用来指点网络交付建设,作为网络运行的基线配置库,包括广域网基线、数据中心基线、装备级配置基线等,一旦现网配置偏离基线配置将进行告警,并尝试有限程度的自动修复;
      现实库顾名思义代表着现网,我们定位为生产环境网络运行配置的真实反应,为了让数据格式高度一致,针对不同厂商装备我们进行了一致建模抽象,然后经过周期全量收集、叠加事件驱动实时触发来保证关键配置的准确性,这样上层各种自动化工具就不需要频繁去查询底层装备的配置;
      转发库涵盖了网络流量转发的关键表项,在流量路径分析、网络仿真、验证方面起着相当重要作用,至今为止受限于传统装备的技术和性能束缚,一般只能依照天级来收集。固然,像BGP这类路由表我们是可以经过BMP这些协议来进行实时收集。
      状态库之所以独立出来建设,是斟酌到状态的实时性、准确性非常关键,不管是变更场景、还是故障隔离场景,如果状态判断有误,可能会触发更进大的故障;另外一方面,关键状态库使用频率也非常高,至今为止我们已把业务故障自动化处理高度依赖的接口、协议等状态优先构造完成了;
      监控库是网络监控系统收集上来的数据合集,其中包括了收集的白盒指标、黑盒拨测等时序数据,这些数据用来支持告警、诊断分析等场景化能力;
      日志库对监控系统收集的日志进行格式化处理,便于各种场景消费使用,装备日志有装备和协议运行进程中的关键事件,利用日志有云服务运行关键日志、和访问的DNS、Ngnix等日志数据,这些数据在分析一些故障时候非常有用。

      用肯定性监控方案,应对不确的网络故障
      一方面云上利用对网络性能诉求愈来愈高,从视屏业务<1ms诉求,到实时游戏<10ms,再到自动驾驶<1ms诉求等,要求网络监控频率愈来愈高;另外一方面,云上网络服务软件快捷迭代演进进程中会引入各种不肯定性BUG和故障,对监控覆盖面提出了更高挑战;最后,云上网络流量路径复杂,给网络及链路的全路径监控和诊断带来了新的困难;
      面对重重挑战,我们必须构造一套覆盖全面的监控体系能力,从基础设施层到云网络服务,再到上层利用对网络的体验的感知,都需要进行精确丈量,确保覆盖完备性。
      传统的白盒指标监控需要依照故障进行分类,提炼监控项,在网络不同层级关心不同指标,有助于肯定故障的根因,因此每层需要单独构造自己的白盒监控体系。例如物理网络层面需要对交换机、路由器、防火墙、波分、专线、互联网出口等进行详细监控;网络服务层则需要对各种网络服务产品、虚拟网关/集群、租户实例指标进行监控覆盖;利用层直接面向终究内部或外部服务,需要感知流量互访的质量和体验,例如内部RDS数据库的访问延时、EIP的带宽/延时等;

      但如今云服务软件快捷迭代、特质急剧增加、新服务层见叠出,白盒case by case的监控方案容易有遗漏的监控点,因此我们又构造了黑盒监控作为补充方案。我们针对Internet网络构造了全世界运营商质量拨测平台,延续监测全世界重点ISP和城市到华为云各站点的实时访问质量;针对基础设施网络层,自研高性能探针构造了分层pingmesh体系,来覆盖尽量多的物理链路,每个月可发现数10起网络微突发;针对网络服务层,构造了overlay层面的黑盒拨测系统,以最小的租户资源本钱来尽量全面的覆盖虚拟化网关/集群转发性能,也为虚拟化软件发布变更提供了实行监控的保障。
      即便有了传统白盒及黑盒监控,还有一类问题难以监控到,就是局部流或单条流访问丢包或延时增大的情况,由于传统白盒的监控粒度优先、黑盒拨测没法覆盖所有流,极可能没法感知。因此在华为云我们又构造了全流监控能力,利用散布式主机的计算能力,结合智能网卡对TCP的5元组流进行质量丈量,快捷发现流级异常。
      除监控能力以外,告警能力也非常重要,既要高的召回率,也要高的准确率。对监控的各类数据,我们的告警利用了非常多的算法能力,除离线训练和在线计算以外,也结合了部份人工经验,例如在日志告警中,算法发掘的知识    在网络诊断领域,除传统的自动化流统、抓包手段自外,还提供了报文头染色能力,该染色报文在经过路径每个虚拟网关的时候,虚拟网关会上报该报文的出入端口信息、时间戳、5元组等信息,如果产生丢包还会直接上报丢包的根因,这将大大提升网络问题的定界或定位效力。
      打造安全可信,开放高效率的自动化体系
      成熟的自动化能力可以大量节省人力本钱、提升效力,也能避免人工失误,保障稳定性。我们将网络从交付、转维、验收、运维、优化等所有工作都冗余的状态引到自动化体系中来了,以此来支持资源、配置等数据的全生命周期流转。
      在自动化平台中,关键构造1个通道、4大引擎,支持多种变更、自愈、验收等多种业务场景。
      1个通道指的是管控通道,一个是为了支持现网配置的实时纳管,需要高性能的收集通道,并定阅关键事件来感知配置实时变化;另外一个是南向控制通道,用于支持操作类自动化指令的高效率下发;
      4大引擎包括了模型管理、编排引擎、风控引擎、调度引擎。其中模型引擎是驱动网络变更的基座,基于Iac理念,我们自研的抽象一致配置模型映照到数据中台的计划库和现实库,以此来指点现网自动化变更;编排引擎则秉持一切操作都可编写未runbook的思想,开放编排能力给运维/交付使用者,能快捷沉淀各类自动化操作场景;风控引擎是自动化平台的看护者,能自动辨认变更依赖、根据作用分析来分步履行控制变更爆炸半径,再结合变更实时监控,遇到异常自动暂停或回滚变更,不久的将来结合变更验证/仿真来做到事情预防分析;调度引擎则提供了一套优先级调度框架,来确保变更、巡检、故障处理之间任务的优先级控制,和确保不出现冲突。

      化繁为简,构造极简AI+智能网络
      随着网络监控、自动化能力增强,带来了效力的巨大提升,但我们没法真正做到无人值守。网络大脑依托于网络数字中台,结合先进的算法能力,瞄准网络L5级自动驾驶终究方向演进,逐渐实现无人运维。
      网络大脑由3大关键引擎加上智能化APP利用市场组成,平台聚焦3大关键引擎模块的构造,同时开放编排能力来给运维快捷孵化智能化APP,至今为止已孵化5大类场景,每大类场景内部还细份子场景,并经过引擎的内核驱动来不断优化APP的性能和安全性。例如广域网流量调度APP,由于加持了秒级监控、和多维矩阵定界算法,使得大范围运营商故障最快能在分钟级完成切换;过载智能反压APP,针对各类同享网关,能精确辨认过载的实例,同时内置安全阈值控制,以尽量小的风险来代价来实现精准快捷的过载控制。

      下面简单介绍一下3大引擎的关键功能:
      异常检测引擎(ADE):本质是由算法库的汇聚构成,但其中各项参数经过了数年的积累和调优,不但能同时应对各类型指标,也能统筹不同的业务特点。举例来看,对白盒时序数据来说,会结合周期性变化、容量基线、水位等来进行综合异常检测;对内存等指标,会加入缓慢的内存泄漏检测逻辑;日志类指标,则会结合人工经验,叠加训练出的依赖关系casue告警;光模块等故障则会利用一些机器学习的预估性算法,提早发现并规避隐患。
      根因分析引擎(RAE):以异常检测为输入,但是会结合网络拓扑、网元配置、知识推理逻辑等来进行更加精确的故障根因推导,对大范围故障场景,能将千级的告警在5min内紧缩成为一个根因告警,协助运维人员快捷聚焦到故障服务或单元。举例来看,pingmesh告警结合自研的路径还原算法,能快捷定界到一组交换机,同时结合这一组交换机的其他KPI、日志指标针对更加详细的根因推荐;
      调度决策引擎(SDE):是终究的控制单元,对有业务作用的告警,终究需要触发恢复履行进程,多是故障的端口自动隔离、也多是迁移一个资源实例、也可能做流量的调度/绕行。但是如何保障履行进程不引入2次故障,或履行怎样的策略才能将作用下降到最小,是一个非常有挑战的工作。举例来看,在流量切换进程中,我们会首先分析当前故障的作用程度,同时查看备选线路的网络质量,也会check状态、容量等水位等多个指标,综合进行判断,终究履行的进程就是经过调用自动化平台api进行控制,自动化平台内部的履行脚本也会有一些逻辑判断,确保不会引入新的故障。


🌟 选择英雄云hpapaas 开启自动化、智能化企业转型未来 🌐       >>>>作为一款提供hpaPaaS平台服务的英雄云,有什么优势呢?面对数字化转型的挑战与机遇,选择一个适合自己企业的高度信息化、智能化和自动化的管理系统尤为重要。英雄云是一个值得考虑的选择。英雄云提供了一系列独特的优势,使其成为企业智能管理的首选。下面是英雄云的八大优势

1. 无需代码操作 💻

: 英雄云的平台无需编程知识,即可操作自定义的管理系统:ERP系统、CRM系统、进销存系统、人事行政OA系统、WMS系统等。这意味着用户无需拥有编程技能,也能轻松操控自己的系统。

2. 高度可定制性 🛠️

: 英雄云允许用户根据自己的业务需求、企业规模、成员人数、所需系统等等,进行高度定制服务;三大业务引擎:云表单(进阶版Excel)、工作流程(智能自动触发流程)以及仪表盘(可视化报表),帮助企业进行更简易的业务操作。

3. 减免重复工作 🔁

:无论是数据录入、审批流程还是报表生成,都可以轻松自动化,使员工能够专注于更有价值的任务。这种减免重复工作的方式不仅提高了工作效率,还降低了错误发生的可能性,为企业节省了时间和资源。

4. 生态系统集成 🌍

: 英雄云与其他常用企业应用和工具具有良好的生态系统集成能力,可以轻松集成与第三方系统,如财务软件、邮件服务等,实现全面的业务支持。

5. 数据分析与智能决策 📊

: 英雄云提供先进的数据分析工具如数据加工工厂,帮助用户更好地理解业务趋势和数据。这使得企业能够做出更明智的战略决策,优化业务流程。

6. 持续更新和改进

: 英雄云不断进行系统的更新和改进,以适应不断变化的业务环境和技术趋势。这意味着您始终能够使用最新的功能和性能提升。

7. 多样化部署 🌐

: 英雄云提供了多样化的部署选项,用户可以根据自身需求选择合适的部署方式,无需自主运维。无论是选择云端部署、私有云部署还是本地部署,英雄云都能提供灵活的解决方案。这意味着用户无需担心硬件维护、系统更新等问题,能够更专注于业务运营,降低了IT运营成本和风险。

8. 免费版本 💸

: 英雄云提供免费版本,用户可以在免费版本中获得一定数量的表单数据量和企业数据总量,为小型企业提供了经济实惠的选择。

选择英雄云作为您的数字化管理系统,将带来高度的灵活性、可定制性和效率提升。不管您的企业规模如何,英雄云都能满足您的需求,助力您的仓库管理更上一层楼。不妨注册一个英雄云账户,亲自体验这些优势,并让您的企业管理更加智能化和高效化


免责声明:

本网址(www.yingxiongyun.com)发布的材料主要源于独立创作和网友匿名投稿。此处提供的所有信息仅供参考之用。我们致力于提供准确且可信的信息,但不对材料的完整性或真实性作出任何保证。用户应自行验证相关信息的正确性,并对其决策承担全部责任。对于由于信息的错误、不准确或遗漏所造成的任何损失,本网址不承担任何法律责任。本网站所展示的所有内容,如文字、

上一篇:沃土云创计划高校方向代金券领用流程-英雄云拓展知识分享
下一篇:【技术知识分享】带你看懂华为云的账号体系
相关文章

 发表评论

暂时没有评论,来抢沙发吧~