ML真的对减少警报噪音有用吗?我们以一种方法为例进行研究



背景



在过去的几年中,监视系统市场一直被缩写AIOps搅动。所有供应商都已开始在其复杂且昂贵的系统中追求使用人工智能。术语“根本原因分析”,“相关性”,“机器学习工具”,“异常检测”,“事件预测”,“降噪”已彻底并且可能永远固定在各种监控系统的营销资料和网站上。



众所周知,宣传手册是一回事,而设计日常生活则是另一回事。可能很多人都面临着某些技术创新的卖方的承诺与实施的实践相冲突的情况,例如泰坦尼克号和冰山一角,尤其是在大公司的复杂IT环境中。因此,我最初非常怀疑地看了一下,没有分享对这个话题的兴奋。此外,当存在诸如Zabbix,Prometheus和Elastic的钢筋混凝土解决方案时。但是HYIP HYIP(怀疑论者怀疑论者),我们仍然是工程师,应该在实践中检查和研究所有内容,而不是问出是否相信/不相信知名供应商和有前途的初创公司的“魔术按钮”。因此,在集成商的另一次演讲之后,并承诺要“在我们有罪的运营工程师的土地上赚大钱”,我们召集了一个小型的主动小组,他决定“感受”人工智能和机器学习的魔力在我们的实践中的意义。因此,材料诞生了,甚至诞生了一个小型宠物项目,我想与您分享。





— , . . - . : -. — “ ”, .. , “ ”, . — “ ”.



ML- . , . - , .



. HTTP- . “”, . , downdetector , , , ;)







2020-10-14 14:00 +03:00 38 ( ), .. [2020-10-12 23:00:00 +03:00 – 2020-10-14 14:00 +03:00]. : 3612.



(threshold), , 0, 1, 179 . (. . 1: . UTC. ,

).



图。1. 1. . UTC. , — .



, 3- , 44 (. . 2). 4 . “0110010011101010…”, , , % ( 1 ), - .



图2. 2. 3- . , — .



“” : - , . - , . , AI/ML.



ML?



, , Data Scientist . , , -, , 3- :



  1. . — , .
  2. , , , .
  3. , , "" . .. " " , , .


DetectIidSpike ML.NET. : . , . "" , . .

DetectIidSpike :



  • confidence — [0, 100]. , , , , ;
  • pvalueHistoryLength — p-value. - " ", .


, . HTTP- , .. . . - . , .. 5 : . , , .. . (, ), "", .



“”. , , , (), «» ( ). 5 . , websockets , . , ( kubernetes ).



(confidence: 95, pvalueHistoryLength: 5), 36 . , , .. . , 24 . (, ).



数字: 3. 3. (confidence: 95, pvalueHistoryLength: 5) , —



(. 3), , . , , ( ).



. 4 pvalueHistoryLength=12 confidence: 98. : 14 .



数字: 4. 4. (confidence: 98, pvalueHistoryLength: 12)





, DetectIidSpike (24 44) 3 , 7,5 (24 179) . , , . , ML . , :)



P.S.: ML, -, . .



PPS:在下面,我将提供来自宠物项目的更多屏幕截图,其中包括已执行的检查和所产生的异常的真实数据。您可以看到算法的工作效率(无效)(针对谁)(黄色圆圈-选定间隔的异常)。



一些更有趣的截图








All Articles