到了该用 AlOps平台进行IT运营的时候了

到了该用 AlOps平台进行IT运营的时候了

4个月前 原创 邹大斌

AI和大数据等数据分析和处理技术的不断成熟和进步不但给各种行业应用带来了新的机会,同时也IT行业自己带来新的发展契机,IT运维就是其中之一。IT运维很长时间以来都是高度依赖从业者的个人经验的。而近些年来,随着IT应用的日益普及,IT应用越来越复杂,涉及面越来越广,一旦出现故障,诊断越来越困难,导致人才紧缺局面出现。幸好AI和大数据技术的应用给这一现状带来了改变,不止如此,也对整个IT运维行业带来改变,推动IT运维加速向IT运营转型。

AIOps被认可

“IT运维正在从大数据和AI技术中受益,从而使得IT运维开始转向IT运营,IT运维也从被动防护转向主动感知。” 华青融天CTO王勇告诉至顶网记者。

王勇表示,这种受益首先体现在,大数据的出现让IT运维有了能力来收集和处理海量的信息,而且是几乎实时地完成整个过程。其次,AI技术的引入让系统有了“火眼金睛”,可以及时发现问题、预测问题,并自动解决问题,大大减少了人工参与。

到了该用 AlOps平台进行IT运营的时候了

华青融天CTO王勇

王勇所在的华青融天成立于2007年,以IT运维起步,然后逐渐扩展到机器大数据应用。在近日其推出的面向IT运维的旗舰产品EZSonar 4.0中就大量应用了最新的AI和大数据技术。华青融天的EZSonar是新一代应用性能管理解决方案的代表,也是一款基于大数据和AI技术的智能运维平台,可以帮助运维人员打开业务运行的黑箱,对IT核心业务系统进行端到端的监控,帮助用户从IT运维转型IT运营。

实际上,市场研究结构Gartner之前已经对这一行业变化趋势进行了预测,并用“AIOps”来定义应用了AI技术的新一代IT运维。Gartner在《Predicts 2018: IT Operations》调查报告中预测,未来五年,随着数字化程度的提高,75%的企业可能会遭遇IT故障造成的业务中断,越来越多的大型企业将使用人工智能进行IT运营(AIOps),以支持和部分取代传统的ITOM。其中,到2019年,四分之一的全球企业将策略性地实施AIOps支持两个或更多主要IT运营功能;到2022年,40%的大型企业将结合大数据和机器学习功能,支持和部分替代监测、服务台和自动化流程和任务。

Gartner在报告中指出,现在是开始战略性地利用 AlOps平台进行IT运营的时候了。而这个说法得到了华青融天产品解决方案总监包彤的高度认可。

从IT运维转向IT运营

根据Gartner的定义,AIOps的主要目标包括:通过采集当前环境中的运维数据,集成现有IT运维管理工具,利用算法等高级数据分析技术对IT系统中各个环节的问题进行快速定位、故障排除和预测;对来自业务环节中各个分布式系统的数据进行聚合分析,合理优化IT服务,挖掘关键业务的KPI指标,反哺业务端,帮助其做出明智决策;通过大数据和人工智能技术分析用户的行为日志和运维数据,发掘潜在的系统安全和合规问题,为企业的信息安全保驾护航。

而华青融天的EZSonar与AIOps的目标高度一致。根据包彤的说法,EZSonar4.0是一个性能监控工具+运维数据平台+数据分析大脑,能实现包括性能监控、根因调查、自动响应等一整套的闭环流程的自动化处置。具体而言,EZSonar具有三大作用:

1.智能运维:对业务实时的监控和告警,对故障进行快速定位和分析运营;

2.业务支撑:统一的监控视图支撑,支持开发运维一体化智能;

3.业务运营:端到端的业务可视化,基于运营大数据平台提供多种数据服务。

到了该用 AlOps平台进行IT运营的时候了

华青融天产品解决方案总监包彤

为了实现上述功能,EZSonar 4.0从技术架构上进行了全面升级,对底层技术进行了更新迭代。这些底层架构的技术变革包括迭代了Elastic Search大数据存储系统,引入了Kafka消息系统,采用微服务设计模式。

“这些技术的引入保证了EZSonar 可以近乎实时地对海量的日志及其各类收集的信息进行解码和解析,从而不仅能对故障进行诊断和分析,还能更准确地对IT系统进行预警和预测,辅助决策,从而为企业的IT管理从IT运维向IT运营转型提供帮助。”包彤表示。

包彤告诉至顶网记者,大数据和AI技术的引入给EZSonar 4.0带来前所未有的能力。以异常检测为例,传统IT运维工具中都会采用基于经验值来定义异常阈值,这种方法主要基于人的主观判断。而基于机器学习的方法,通过积累历史运维数据,根据日常运维的需求在数据特征的基础上建立算法模型,对模型进行周期性地训练学习,从而能为IT系统提供更为及时、准确、高覆盖的检测结果。比如,传统异常发现的流程是运维人员在系统中创建了业务路径,并对路径中关注的节点或连线进行告警设置。如数据中心网银交易服务器响应时间告警的设置为>300ms,如果运维软件监测到响应时间真超过300ms,系统就发出告警。而采用AI方法进行异常检测时,运维人员不用对业务路径做任何告警设置,当机器学习算法检测到某个业务路径的某个节点或连线上产生了异常值,就会自动抛出异常事件。

据悉,与2年前的上一个版本EZSonar 3.0相比,EZSonar 4.0改进是全方面的。除了更智能的预警与预测能力之外,EZSonar 4.0在易用性上也有很大改进,采用功能更为强大的可视化仪表盘,提供了更强大的系统自运维能力。

王勇介绍,自2007年成立以来,华青融天利用其独特的技术已先后为包括招商银行、中信银行、民生银行、平安集团等众多优质客户提供解决方案和专业服务,其技术在不断检验中也越来越成熟。展望未来,王勇透露,华青融天将继续创新,以AIOps智能运维、业务洞察和安全运营为核心业务,持续性地打造全方位的应用解决方案,为更多企业的业务系统和转型升级保驾护航。

分享到微信分享到其它
大数据AIAPM
科技行者 每条内容都是头条的新闻客户端 APP下载
即将跳转至电脑版页面您确认跳转吗?
取消 跳转