鼎茂科技助制造业客户实现业务系统监控告警管理
您当前的位置 :首页 > 工程案例 > kaiyun主页登入

鼎茂科技助制造业客户实现业务系统监控告警管理

  全栈监控+统一告警+智能值守解决方案,旨在为经历IT系统规模激增和复杂性加剧的公司可以提供一站式、全方位的运维监控管理服务。该方案通过全方面覆盖系统各层次的监控,统一整合告警管理,以及智能化的自动值守,确保运维过程的高效和系统运行的稳定。

  全栈监控对基础设施、中间件、服务、应用、调用链等各种IT资源进行立体化监控,实时监测系统的运作时的状态和性能指标,及时有效地发现潜在的风险和异常,并通过统一告警管理,将所有告警信息集中治理,避免信息孤岛和重复告警的问题,提高了告警的准确性和响应的及时性。同时,智能值守系统实现了7*24小时自动化值守和智能应急处置,能够在接收到告警后自动响应,给出相关的解决方案建议,并跟进处置状态,减少了对人工干预的依赖,提高了问题处置的效率和准确性。

  通过该解决方案,企业可以在一定程度上完成“全面立体监控,实时发现异常,提升告警质量,支撑快速响应”的监控管理目标,确保IT系统的高效、稳定运行。

  经过多年的沉淀,案例客户在运维方面已经布局搭建了部分运维监控工具,由于各个运维点位建设初期并没有整体规划,这些运维监控工具的监控手段比较单一、技术相对落后,且运维数据相对分散,缺乏相互连通和协同工作机制,不具备统一的一体化管理能力。此外,现有运维团队受限于自身技能与工具能力,在应对系统故障时没办法保证及时性与高效性。

  案例客户为了应对70余套业务系统和数百个系统节点所带来的运维压力,迫切地需要一套完整且专业的智能运维体系以提升运维管理能力,实现一体化和精细化运维管控,全面保障IT系统的稳定运行。

  由于监控工具技术较为陈旧,导致没办法兼容部分设备类型、软件版本的监控;而使用开源技术则意味着需要持续投入人力进行开发维护,因此目前仅实现了对于服务器和日志的部分监控,应用性能、中间件和数据库等监控缺失,在监控的覆盖面、指标覆盖度和实时性等方面的不足,导致没办法实时反应系统运作情况,故障发现比较滞后,甚至会出现晚于用户上报的情况。已不足以满足当前复杂系统的运维监控需求。

  监控数据与其产生的告警分散在各工具平台中,缺乏统一的管理视图与关联汇总的告警信息,在面对大量告警时,运维人没办法快速识别重要告警,并判断问题影响区域;故障排查时,各专业组难以进行整体性的关联分析和故障溯源。

  故障分析与处置环境完全依赖人工。在业务系统出现异常时,一线运维人员由于经验与技能的不足,往往需要寻求二、三线运维人员的协助,沟通与人力成本较大,而故障处理的用时过长,增加业务受影响的周期。

  针对全栈软、硬件性能指标通过多渠道多方式的监控采集,且具备自定义脚本上报数据的能力,建设一套平台全方面覆盖各种监控类型,包括但不限于使用者真实的体验监控、应用性能监控和基础资源监控(包括服务器、中间件和数据库等)。此外,补全日志数据的实时采集与监控。确保运维团队能在第一时间感知系统异常。

  通过统一平台融合运维大数据,包括结构化和非结构化数据,打通监控、告警和资产等数据。从业务视角出发,对核心骨干链路、核心业务应用、监控告警等信息重点展示,提供运维数据可视化洞察,帮助运维人员全方位掌握IT系统运行状况。

  对日常出现的大量相同或相似告警事件进行压缩,使运维人员的工作更聚焦于问题与故障的发现与溯源。使用告警处置跟踪,故障识别与自动升级,一键拉会并启动应急指挥室等自动化、智能化手段应对告警事件,节省人工干预的时间和精力,并能够在故障发生后快速响应和处理,降低故障对系统稳定性和业务连续性的影响。

  该方案内置基础资源监控、应用性能监控与使用者真实的体验监控模块,实现集基础环境、服务器、存储、网络、操作系统、中间件、数据库等于一体的统一监控覆盖。

  方案以鼎茂科技自研的ARCANA平台(多模态数据智能分析与决策平台)作为统一数据底座,汇聚性能指标与日志等运维大数据;通过ARC-IOC(数智运营中心)使用低代码方式快速构建运维监控管理可视化视图;通过Di-Logger(智能日志中心)对日志进行监控与分析,将经由各监控模块与日志平台生成的告警推送给Di-Alert(智能告警中心),实现告警压缩与处置流转,并由Di-Robot(智能值守中心)跟进告警的处置,形成故障发现、分析、处置的闭环。

  Step1部署全栈监控模块(基础资源监控、应用性能监控、使用者真实的体验监控、日志监控)

  ·使用各监控模块,围绕业务价值构建多维度的运维监控体系,实现业务系统与基础资源的全方位实时监控,扩大监控覆盖度、提升监控指标灵活性;设置及时准确的监控告警机制,在问题初现端倪的第一时间进行告警;

  ·利用Di-Logger的日志分析能力,对日志进行实时检测,对日志中隐藏的异常进行告警。

  ·通过ARCANA平台提供统一运维门户,集成所有运维监控管理工具形成统一运维入口。对运维大数据进行汇聚分析,提供低代码、可视化编辑的运维监控大屏、移动端视图等,形成个性化运维界面;

  ·由Di-Alert承接告警统一、告警压缩、告警视图的主要能力。对海量告警进行关联压缩,以告警拓扑视图的形式对关联告警进行通知和播报。

  ·基于整合运维数据,包括交易-业务-服务-基础组件-基础设施的全栈指标、日志数据、告警信息,资产信息和事件工单等,以业务系统为核心,形成业务运作时的状态、系统健康状态等的可视化洞察。

  ·由Di-Robot承载故障值守和应急管理等能力。实现自动化告警判断与故障升级,高效组织应急响应,提供故障场景下的智能决策。

  通过基础资源监控的替换,实现当前管理机制中所存在的操作系统监控不全、指标遗漏,以及数据库、中间件等监控缺失等管理盲点的改善。通过建设覆盖所有业务系统的应用性能监控和使用者真实的体验监控,直观反映业务健康状态,提供故障的感知能力。

  通过全局视图,监视所有应用的健康情况;通过IT系统拓扑视图,查看应用相关的主机、网络、中间件和数据库等的性能情况,可下钻的拓扑视图至指标趋势详情或日志明细,为分析故障影响区域、排查问题根因提供有力支撑。

  针对各类监控所产生的大量告警事件,进行告警收敛、压缩、降噪等处置,屏蔽告警风暴,聚焦有效告警,提升告警可读性,并改善多源告警分散管理的现状,实现统一告警分派、通知、认领、开单、处置、结单的告警处置流程闭环。

  实现客户全量运维数据资产沉淀,以统一数据融合平台的形式,将当前多数据通道、多数据类型、多数据格式、多数据标准并存的运维数据,以业务视角设计运维管理故事线,并形成统一运维大屏作为日常运维管理的数据检阅工具。

  实现7*24的自动值守,启用了数十类故障自动升级与处置规则,帮助一线运维人员在常见系统故障发生后及时响应。在排障过程中,能够最终靠故障应急驾驶舱所提供的故障处置最佳实践、历史故障处理记录,辅助应急响应决策,提高故障应急效率。

  鼎茂科技帮助该客户实现了监控体系的全面升级,并对监控生成的告警进行治理与压缩,对于故障告警进行高效处置,使用可视化大屏展示业务健康状态和核心指标趋势等重要信息。整体提高了故障发现到定位的时效性,提升故障处置效率。

  ·解决方案能快速扩展覆盖新增的业务系统或软硬件资产,轻松应对业务增长所带来的增长需求;

  ·并提供了全面运维数据的采集、治理与分析能力,为后续更多智能化运维分析场景落地提供了基础。


上一篇:阳泉市人民政府门户网站2024-09-20

微信扫一扫

手机官网

  • 网站首页
  • 咨询电话
  • 返回顶部