当前位置:网络安全 > 如何避免淹没在云原生可观测性数据中

如何避免淹没在云原生可观测性数据中

  • 发布:2023-10-06 22:48

如何避免淹没在云原生可观测性数据中 公司联合创始人兼首席执行官 Martin Mao 表示,可观察性的一个关键目标是缩短平均恢复时间 (MTTR)。然而,令人惊讶的是,这个指标在许多企业中实际上正在增加,工程师可能会遇到数据疲劳,因为在处理大量通知时识别警报非常棘手。 Mao对如何管理云原生可观测数据进行了分析和阐述,并介绍了一些可以帮助企业在可观测数据的海洋中脱颖而出的技巧。

可观测性趋势

首先,许多开源工具不断涌现,以支持与云提供商或计算环境无关的云原生可观测性任务。云原生计算基金会的一项研究发现,工程师正在积极使用 OpenTelemetry、Fluentd、Jaeger、OpenTracing、Cortex 和 OpenMetrics 等开源工具。

马丁 Mao曾领导Uber的可观察性团队,对当今平台运营的需求有着深刻的洞察。 Uber 的开发人员意识到应用程序性能监控(APM)的缺点,并尝试开发自己的工具,从而催生了开源指标平台 M3 和开源分布式跟踪系统 Jaeger 等项目。

但是投资那些华而不实的云原生技术确实有一个缺点。他说,人们越来越担心这些工具生成的大量数据。可观测数据的增长远远超过了业务和基础设施的增长,这意味着不仅难以解析,而且过多的可观测数据会创建新的数据湖,给数据存储和集成带来新的问题。

毛说,“随着越来越多的数据产生,需要筛选的警报也越来越多,这些警报开始阻碍企业寻找解决这些问题的方法。”

解决方案:优化保留和解析

Mao表示,企业可以通过设置数据保留和解析的限制来解决这些问题。下面仔细看看这些概念的含义。

(1)数据保留

随着众多工具产生不断升级的数据维度,企业的可观测数据可以快速积累。停止数据积累的第一个方法是限制收集和存储数据的时间。

例如,是否需要无限期保存单次部署期间收集的所有数据?在当今的迭代开发周期中,永远存储这些点可能不是明智之举。这可能意味着减少默认存储时间。

此外,未能对数据收集时间设置限制可能会导致可观测性数据爆炸。例如,只有在主动调试时才需要实时记录调试端点,否则无需收集数据。

(2)数据分辨率

数据分辨率是指记录时间序列数据的粒度。正如Mao指出的那样,每秒记录的数据与每小时记录的数据基本上相差3600倍。因此,优化数据收集的分辨率对于减少昂贵存储设备的使用非常重要。

调整可观测性数据的数据分辨率在很大程度上取决于当前的用例。回到持续集成(CI)/持续交付(CD)示例,如果您在回滚时收集部署数据,您希望每秒都有高分辨率,因为这是关键时刻。另一方面,如果企业正在进行一年的容量规划,则可能不需要保留历史容量信息到第二年,因为它太精细了。

其他提示

优化数据保留和分辨率可以限制记录的数据量。这有助于缩小占地面积并生成更少的数据点进行筛选。调整分辨率通常是比其他监控方法更好的折衷方案,例如只录制制作团队 10% 的内容,这可能会给许多用户带来困惑。

拥有一种动态选择加入和退出数据收集过程的方法可以节省一些前期工作。这可以被认为是自动应用更智能的默认值。一旦知道什么是有效的,您就可以围绕可观察性数据收集和存储过程设置可在整个企业共享的通用模式。

Mao 指出,为了更好地处理数据,团队需要工具来修改和可视化他们正在收集的数据。此外,由于工作人员在调试时可能不需要每个数据点维度,因此他们可能会受益于预先计算所需答案的机制。

结论

可观测性趋势可以为帮助数字平台优化其运营带来巨大的好处。可观察性有助于减少问题的响应时间并改善最终用户体验。他说,“可观察性在这方面发挥着关键作用,让人们了解这些做法是否有效。”

然而,向云原生架构的加速过渡引发了新警报和信号的风暴。如果不加以解决,这些数据会很快堆积起来,需要对数据本身有更大的可见性。毛泽东说:“带来的价值需要重视”。

世界正在产生大量数据,数据将占用更多空间。它的积累和大规模存储是昂贵的。然而,人们仍然认为数据是免费的,并且往往不规划数据的生命周期。毛说:“可观测后端负责人的心态不应该是创建一个数据湖,到了某个时候就必须做点什么。”

为了抵消这种趋势,运营商不能以相同的方式对待每一条数据。总之,为了避免淹没在可观测性数据湖中,您需要限制不必要的数据收集,并围绕数据收集的时间、粒度、可视化方式以及存储时间实施更智能的优化。

相关文章