安全运营中心KPI:我们如何进入指标体系

在这里,我不会写过冗长的有关“如何正确地为SOC构建KPI系统”的文章。我只想告诉您我们如何战斗和寻找自己的方法,以及我们现在如何衡量“一切有多糟/好/安全/(强调要求)”。









一切如何开始



奇怪的是,我们为Solar JSOC形成KPI的第一步与监视和应对网络攻击的中心毫无关系。 “在我们青春的曙光中”,我们帮助公司建立了评估信息安全有效性的系统(ISMS 27001就是这样)。随后,人们自然而然地就了解了它们的必要性:几乎每天任何信息安全部门都被迫分析来自许多不同系统的大量数据。当然,它们中的每一个都有某种类型的报告,但是,由于存在大量报告,因此很难形成一个全面的信息安全状态图,然后以方便的格式向管理层提供报告。如果组织在地理位置上分散,问题将更加复杂。



我们不仅帮助客户构建了复杂的KPI /指标,而且还构建了一个综合的分析解决方案,该解决方案可以聚合来自信息安全系统的数据。实际上,它是一个可视化系统,您可以在其中轻松快速地查看问题的本质及其位置,以便快速做出所需的决策。在这些项目中,我们积累了经验,得出的结论是该系统确实非常方便和有用。并且-还需要评估SOC的工作。



为什么要评估SOC的有效性,尤其是外部SOC?



很简单:一方面,我们想了解我们提供服务的程度,另一方面,要对客户的基础架构有最全面的了解,查看所有未包括在我们的审计中并成为服务风险因素的``黑点''。简而言之,我们想了解:我们是否会看到对客户的这种或那种攻击。



当我们开始作为服务提供商工作时,碰巧客户端拒绝提供特定的连接来源,这对于100%识别攻击是必不可少的。结果,发生了这样的攻击,尽管发出了最初的警告,但我们没有看到它并受到了指责。



另一个示例:我们说过,为了正确,准确地识别事件,您需要以某种方式配置源,并给出了这些设置的列表,但是客户并未执行此工作。结果是一样的-遗漏事件。



因此,我们了解到,重要的是要明确突出客户和我们自己,我们在客户基础架构中确切看到的内容,对我们而言存在“盲点”,最常实施的攻击媒介以及哪些领域,哪些IT资产最容易受到攻击,以及这如何影响业务。为此,可视化系统必须显示实际情况并提供分析帮助,而不仅仅是领导层的“惊叹效应”(通常是这种情况)。



SOC的KPI-什么以及如何衡量?



首先,您需要了解:为什么,为什么需要这个非常KPI /指标的系统?您是否要衡量信息安全部门的绩效?了解您的流程执行得如何/是否成功(反之亦然)?或者也许只是向管理层表明“谁很棒?”还是部门奖金取决于KPI绩效?如果不了解评估有效性的目标,就不可能建立一个真正可操作的KPI系统。



假设我们已经确定了目标,现在出现了最有趣的问题:如何衡量?您无法使用直尺去SOC,这里的一切都有些复杂。毕竟,这不仅是SIEM,它是一种用于收集和关联信息安全事件的系统,它还是一个庞大的系统集,可以使服务正常运行。 SOC内有大量数据,因此有很多需要评估。



在此问题上,我们正在尝试尽可能避免主观KPI,即那些无法自动衡量的指标。例如,如果没有一个人(谁会给出自己的曲线)的参与,就很难直接评估“我们的一切状况有多么糟糕”指标。根据我自己的经验,并不总是正确的意见)。但是,如果我们将该指标细分为较小的指标,则可以根据技术手段得出的数据进行计算。那些。对我们来说,有必要定义“一切都不好”概念中包括的内容:我们没有特定的信息安全系统;并非在需要的任何地方都实施防病毒;专家处理事件或请求的时间很长;我们所有的主机都有10多个关键漏洞,没有人修复它们,等等。现在,如果将所有这些小的度量标准(考虑到它们对我们业务的权重系数)汇总到一个计算中,那么我们将获得度量标准的值“我们有多糟糕”。此外,我们将能够解释它的基础,以及为什么它的某些含义表明是时候紧急解决信息安全组织中的严重问题了。最重要的是,我们总是可以深入了解该指标的细节,并了解哪些任务处于哪个优先级。



在构建我们的KPI系统时,我们遵循以下原则:



  • KPI对于SOC和客户都应该非常重要。
  • 该指标必须是可衡量的,即 必须建立特定的计算公式并设置阈值;
  • 我们应该能够影响指标的价值(即,“每年晴天的百分比”类别中的指标不适合我们)。


我们还得出以下结论:KPI系统不能统一,并且必须至少具有三个级别:



  1. “战略”:这些KPI反映了实现既定目标的总体情况;
  2. “调查,分析,确定连接”:这些是KPI,在此基础上形成第一级并有助于实现主要目标。
  3. « »: KPI, ( – ).


每个指标都会影响上级。由于这种影响是不同的,因此为每个指标分配了一个加权因子。



当然,我们一直希望看到的第一件事就是我们对客户的服务效果如何。并且,当然,这些信息必须及时。为此,我们已经开发(并继续改进)一种能反映每个服务工作质量的指标体系:第一和第二行,服务经理,分析师,响应,管理等。对于每个领域,大约10到15个KPI-它们是根据这些人工作的系统中的数据库计算出来的(是否按时完成了请求,我们对客户请求的响应速度有多快,源如何连接等等)。



SLA很好,但是真正的服务质量更重要



对我们而言重要的是,服务覆盖范围使我们能够确定最大数量的事件和攻击,而不是盲目小猫。这样我们就可以以客户自己的IT资产而不是抽象IP的格式解释事件。因此,我们的通知不会归结为“在主机10.15.24.9上发现了Mimikatz”这一事实,也不会强迫客户独立地找出主机是哪种主机,从而浪费了响应时间并消除了后果。



换句话说,对于我们而言,了解SOC客户的保护水平非常重要。因此,有必要确定我们“看到”它们的详细程度和充分程度:



  • 与我们相关的所有重要信息来源;
  • 客户的信息安全系统(它们也是我们服务的来源)如何有效地覆盖其基础架构;
  • 是否按照我们的建议配置了所有来源,以及有哪些偏差?
  • 是否已在客户场所启动了用于检测攻击和事件的所有必要和充分方案;
  • 是否所有关联的源都以给定的规律向我们发送事件;
  • 客户是否对我们的所有通知做出了反应,以及他做了多及时。


而且-住在这个客户里面有多可怕,那就是:



  • 他受到攻击的频率,这些攻击的严重性(针对性或大规模)是什么,攻击者的等级是什么?
  • 客户保护(流程和信息安全系统)的有效性以及更新的频率;
  • 事件中涉及的资产的关键程度是什么,攻击者最经常使用哪些资产,等等。


要计算所有这些高级指标,您必须首先将其分解为更小的指标,甚至分解为更小的指标,直到我们达到可以根据源和内部系统的数据库明确计算出的小指标Zen级别为止



最简单的示例:有一个高级指示器“信息安全过程的有效性”,由较小的指示器组成,例如“针对恶意软件的防护程度”,“漏洞管理程度”,“针对IS事件的防护程度”,“访问控制效率”等。 ...由于组织中实施了许多信息安全流程,因此第二层的度量标准也将很多。但是,要计算第二级指标,您需要收集甚至更小的指标,例如“防病毒对组织主机的覆盖程度”,“恶意软件严重事件的百分比”,“涉及的资产数量”,“误报的百分比”,“用户的网络素养水平” ,“具有禁用防病毒保护功能的组织中的主机百分比”,“具有过时的防病毒数据库的主机百分比”-您可以继续。这些第三级度量可以自动模式从信息安全工具和其他系统中收集,并且可以在信息安全分析系统中进行计算。



对于这些度量的开发人员和客户(创建排他舞),创建KPI和管理SOC的性能仍然是一个挑战。但是游戏值得我们付出:因此,您可以全面,集中,快速地评估信息安全状态,发现弱点,快速响应事件并保持信息安全系统为最新。



如果这个话题变得有趣,我将在以后的文章中进一步讨论指标。因此,如果您想了解测量SOC的任何特定方面,请在评论中写-我将尝试回答所有问题。



Solar JSOC首席分析师Elena Trescheva



All Articles