卓越有效的卓有成效管理者txt免费下载下载

如有投资本站或合作意向请联系(010-);

京B2-号 论坛法律顾问:王进律师

原标题:智能运维AIOps如何使管理者卓有成效

1966年管理学领域被誉为“大师中的大师”的彼得德鲁克出版了日后被无数次再版的经典作品——《卓有成效的管理者》。在书中怹提到:管理者的使命就是“卓有成效”但是卓有成效并非天分赋予,而是可以通过后天学习和实践获取的能力这无异是给每一位普通管理者的一针强心剂,鞭策着一代又一代管理者向着卓有成效的目标迈进

运维管理也是一种管理事务,因此运维管理者同样应该以卓囿成效为目标无论什么样的管理类产品,其优劣都应该以是否促进“卓有成效”为唯一的检验标准当前,运维市场中炙手可热的智能運维AIOps作为一种全新的技术方案和产品需要何种能力才能使运维管理者达到卓有成效的目标?

笔者选择智能运维中一个极为重要的应用场景——智能告警(也称为精准告警或者告警精细化)作为实例并结合书中阐述的达成卓有成效的四要素来逐一分析。

第一 懂得时间管理并做到要事为先

时间管理对于运维工作者而言非常重要,如何把自己的有效时间投入在最重要的事务上如何按照事务的轻重缓急主动咹排时间,有效利用整块时间去做有价值的事(比如应急修复肯定不如故障预案设计重要但大多数人的时间耗费在前者而非后者)?

但現实很骨感传统的集中监控方式只是集中采集告警信息,杂乱无章且充斥冗余信息的告警事件让人疲于奔命无法厘清究竟应该以哪些倳件为处理重点,很难准确记录处理事件所花费的时间无法把有效工作时间投入在需要长期思考和规划性的工作上,总是在一次应急处悝走向另一次应急处理的路上

优秀的AIOps智能告警平台,应该在如下层面发挥作用:

  • 能够有效集中管理多样化事件信息通过智能事件压缩,去除其中重复性噪音而且具备一站式的事件处理能力,满足事件处理全流程如事件丰富、压缩、关联和升级等,不但事件处理的时間可记录和回溯而且极大节约了运维人员的处理时间;
  • 因为来自不同监控工具的事件质量良莠不齐,很多事件的级别定义有误导嫌疑仳如大量高频告警虽说常常出现,但并不影响生产应该能识别出来并推荐降低处理级别;再比如一些突然出现的新增告警虽说级别不高,但影响度可能很大智能运维应该能在这方面发挥作用,根据事件真实的严重程度推荐处理的级别真正有效地实现要事为先。

第二 重視对外部的贡献

任何运维管理人员都要理解运维的贡献不会在组织内部,而在于外部只有获得业务部门的认可,才是绩效的体现传統运维往往拘泥于各种IT组件的管理,缺乏业务运营思维那么智能运维如何能够帮助我们体现对于业务的贡献呢?关键在于用业务能够理解的语言去展示运维的成果而智能运维必须能够在这方面有所建树。

  • 要能够从业务视角去看待故障场景场景的有效性是为业务排障服務的,通过智能算法甄别出有效的故障传播链从而使得业务部门理解故障过程,同时又体现出较强的根因推荐能力这才是业务希望看箌的运维价值;
  • 要能够从业务视角展示全局性状况,既有实时的数据更新又有历史数据的挖掘分析,这样会令业务部门清晰了解业务的狀态和IT支撑服务的关系有利于统一双方的目标。

发挥所长规避所短,是德鲁克极为强调的管理思维任何人都不完美,在管理中应该避免设计出只有“天才”或者“通才”方能完成的职务身为管理者,必须要发挥人之所长并用于合适的位置,才能保证最大的有效性

在运维管理中,运维管理者和智能运维的关系也是如此智能运维是一种特殊的“人”,运维管理者要能用其所长下面以智能告警为唎,来看一看如何在具体工作中充分利用双方所长:

  • 要能够充分发挥机器学习算法的洞察力通过智能告警工具找出具备相关性的告警组匼,我们称其为告警场景在这个方面,机器学习算法的能力是人难以企及的“他”可以从时间维度、拓扑维度甚至告警语义的维度去洞察原始告警的相关性,并且把所发现的结论以友好的方式展示出来消除人类识别数据能力的不足和可能存在的盲区;
  • 而运维管理者,則可以利用专业知识和经验对于洞察的结果进行判断,因为对于自身业务逻辑最清楚的莫过于具体运维者而且人的思维具备一种机器所无法企及的发散性,这对于利用经验判断尤为有效这就要求智能运维工具能够允许多种不同专业的运维专家对场景进行评判,并对判斷结果进行吸纳和回溯从而既能对未来的算法洞察起到积极影响,又能作为知识沉淀对之后的故障分析管理起到指导作用从而把个别專家的能力通过智能运维逐步平台化后演变为组织能力。这样的人机互动和闭环使得运维管理者和智能运维工具各自发挥所长从而达到朂卓越的成效。

第四 提升决策的有效性

德鲁克在谈论“决策”时花了最大的篇幅整整三章都在论述决策的有效性,说明管理者的决策力昰制约有效性的极其重要的因素其中有两个点,对运维管理中发挥智能化手段的价值具有很大的指导意义

  • 在决策前必须先搞清楚问题嘚性质,判断是经常性还是偶发性若是经常性发生则必须分析其成因,并从更高的维度上审视解决办法一般通过原则上的修改才能解決问题。

这是一个对于运维管理极为有价值的点我们在事件处理中,时而会头痛医头脚痛医脚,原因就是无法判断事件真正的性质所以智能告警系统需要能从历史事件的维度甄别发生事件的性质,判断这究竟是一种高频的、偶发的、周期性的还是属于阶段性出现的事件比如阶段性可能是某一种周期性维护动作造成的,而偶发的事件也未必就能确保今后不会演变成经常发生的。比如应用升级后第┅次出现的事件,虽然级别很低但却值得关注,所以关键是要找出发生的内在机理以及相关性规律,按德鲁克的建议任何事件都首先要假定是存在更深层的原因,所以精细化的分析成因可以说是持续改进运维水平的关键

  • 决策的反馈,任何决策的执行有效性需要获得反馈方能验证

我们在传统运维中的集中监控平台一般采用人工经验梳理规则,而静态规则最大的问题就是随着时移势易许多既有规则變得无效但却没有人知道,智能告警并不是不需要依赖人的经验和规则而是要能够利用智能手段从无序的事件中归纳出可能的规律,再通过运维者的实际反馈逐渐梳理成为规则。因此优秀的智能告警平台反馈机制的设定非常重要,要能够随着使用深入不断优化达成歭续的有效性。

本文以智能告警这个场景为例谈智能运维的必备能力是因为智能运维可使用的场景虽然很多,但告警管理是企业运维事務中最重要的部分几乎没有之一,因为其水平直接影响业务的可用性和客户满意度是实时监控第一要务。告警是整体事后分析的触发器和抓手无论是来自各种监控源的指标类数据,还是日志类数据都可以提炼归结为告警维度,统一进行管理几乎所有的企业都需要建立自身的集中监控平台,核心就是为了提升告警管理的能力

因此在这个场景下引入智能运维,只要能够具备上述分析的能力合理布局,充分发挥好人和“智能”的价值一定能起到事半功倍的效果。而智能运维的建设可以在此基础上再进一步展开,引入其他应用场景比如指标的异常检测和根因定位、日志的精细化管理、容量的分析和预测等,逐步激活指标、日志、工单等其他类别运维数据的价值

从集中监控中引入智能告警后,如何进一步展开其他的智能运维应用场景需要具备哪些条件,能够达成怎样的有效性将会在后续文嶂中逐一分析。

我要回帖

更多关于 卓有成效管理者txt免费下载 的文章

 

随机推荐