주요 사건 관리 자동화를위한 5 가지 모범 사례

작가: Roger Morrison
창조 날짜: 27 구월 2021
업데이트 날짜: 1 칠월 2024
Anonim
붓다 빅 퀘스천 15, 김용섭 소장, 새로운 미래를 위해 우리가 알아야 하고 준비해야 할 것들
동영상: 붓다 빅 퀘스천 15, 김용섭 소장, 새로운 미래를 위해 우리가 알아야 하고 준비해야 할 것들

콘텐츠



출처 : Pixtum / iStockphoto

테이크 아웃 :

스마트 자동화 전략을 사용하면 다운 타임 및 잠재적 인 보안 침해를 최소화하면서보다 신속하고 간편하게 사고 대응을 수행 할 수 있습니다.

주요 IT 사고는 매일 회사 내에서 발생합니다. 소수만이 헤드 라인을 만드는 반면, 중단 및 보안 침해와 같은 이벤트는 직원의 생산성을 심각하게 저하시키고 고객의 인식에 부정적인 영향을 미치며, 가장 중요한 것은 수익 손실을 초래할 수 있습니다.

따라서 주요 IT 인시던트를 관리 할 때는 비즈니스 영향과 수익에 중점을 두는 것이 가장 좋습니다. Ponemon Institute에 따르면 2016 년 평균 다운 타임 비용은 분당 8,851 달러로 시간당 500,000 달러 이상이며 일반적인 다운 타임은 평균 90 분 이상입니다. 그리고 이것은 바로 비용입니다! 평판 손상 및 고객 감소와 같은 장기적인 영향은 예측할 수 없으며 치명적일 수 있습니다.

모든 주요 사건을 완전히 피할 수는 없지만 가능한 경우 조직이 가능한 한 신속하게 대처할 수 있도록 준비시킬 수 있습니다. 그리고 전략의 주요 구성 요소는 자동화를 통합하는 것입니다. 주요 사고 해결 프로세스에서 자동화를 최대한 활용하는 조직은 서비스 오류를 빠르게 복구하고 인적 오류로 인한 실수를 훨씬 줄입니다. 이는 자동화가 비즈니스 영향 기간을 단축하는 능력 또는 사용자와 비즈니스 운영이 실제로 사고의 영향을 느끼는 비용이 많이 드는 기간에 직접적인 영향을주기 때문입니다. 자동화에 대한 자세한 내용은 자동화 : 미래의 데이터 과학 및 기계 학습?을 참조하십시오.

자동화의 이점을 극대화하려면 영향 기간 동안 수행해야 할 활동을 조사하고 사고가 시작되기 전이나 업무가 정상 운영으로 돌아간 후 다른 모든 활동을 이동하는 방법을 알아 내야합니다. 시작하는 데 유용한 5 가지 방법이 있습니다.

1. 프로세스 개발 및 정의

주요 사고 관리 프로세스를 정의하는 것은 사고 중에 계획, 조정 또는 실행할 수있는 사항을 정확히 찾아내는 것입니다. 예를 들어 서비스 데스크가 가능한 한 신속하고 효율적으로 참여할 수 있도록 기술 지원 및 일정별로 주요 지원 팀 구성원을 식별 할 수 있습니다. 또한 적절한 정보를 팀에 전달하여 문제를 즉시 해결하고 올바른 이해 관계자에게 정보를 제공하고 업데이트 할 수있는 방법을 파악해야합니다.


자동화는이 프로세스의 주요 측면에 중요합니다. 예를 들어, 서비스 데스크 티켓에 모니터링 도구의 관련 정보 포함을 자동화하거나 인시던트 해결 자에게 알림에 서비스 데스크의 정보를 포함시킬 수 있습니다. 또한 전체 사건을 모든 사람이 액세스 할 수있는 포괄적 인 단일 소스에 문서화 할 수 있습니다. 이 프로세스를 올바르게 수행하기 위해이 프로세스를 연습 할 수 있습니다. 실제 상황을 기다릴 필요가 없습니다.

2. 올바른 인프라 확보

경고 피로의 시대와 시대에 관계없이 관련없는 알림과 정보로 팀을 공격하지 않는 것이 중요합니다. 모니터링 경보에 필터를 적용하면 팀이 일상 소음의 더미에서 바늘을 더 쉽게 제로에 넣을 수 있습니다. 이는 정보 과부하에 추가하는 것이 아니라 모든 통찰력과 데이터를 진정으로 실행 가능하게 만드는 데 중요합니다.

자동화하는 좋은 방법은 APM 솔루션을 사용하여 모든 응용 프로그램과 시스템을 크롤링하여 주요 서비스 중단을 유발하기 전에 성능 저하 시점에서 근본 원인을 사전에 정확히 찾아내는 것입니다. 또한 모니터링, 서비스 데스크, 협업 앱 및 채팅 도구를 통합하여 동시 정보를 실시간으로 공유 할 수 있습니다.

버그 없음, 스트레스 없음-인생을 파괴하지 않고 인생을 바꾸는 소프트웨어를 만드는 단계별 가이드

아무도 소프트웨어 품질에 신경 쓰지 않으면 프로그래밍 기술을 향상시킬 수 없습니다.

3. MTTR을 정확하게 측정

평균 수리 시간 (MTTR)을 어떻게 측정합니까? IT 팀이 참여한 총 시간 또는 비즈니스에 실제로 영향을 미치는 총 시간을 기준으로합니까? 대답이 전자 인 경우 대신 비즈니스 관점을 사용하여 영향 창 측정을 다시 고려해야합니다. 이는 인시던트의 영향을 최소화하고 보드에 더 나은 응답 보고서를 제시하는 것이 아니라 목표이기 때문에 최적화 노력에 훨씬 더 정확한 단점입니다. 가동 중지 시간 및 처리 방법에 대한 자세한 내용은 장애 간의 실제 평균 시간을 확인하십시오.


필요한 경우 애플리케이션에 대한 완전한 가시성을 제공하여 필요에 따라 소급 적으로 "시계를 시작"하고 분석 및 감사를위한 분석 활동 및 통신에 대한 전체 기록을 보존하여 프로세스를 개선함으로써 자동화 할 수 있습니다.

4. 이해 관계자에게 정보를 제공하십시오.

이해 관계자는 효과적이고시기 적절한 의사 소통을 기대하는 동시에 주제 전문가가 문제 해결에 레이저에 집중할 것을 기대합니다. 커뮤니케이션 사용자를 지정하여 비즈니스 사용자를 모니터링하고 참여시킬 수 있지만보다 효과적인 전략은 상태 업데이트가 포함 된 셀프 서비스 웹 페이지를 만드는 것입니다. 이를 통해 이해 관계자는 팀에게 추가적인 전화와 공격을 가하지 않고 스스로를 확인할 수 있습니다. 정기적으로 이해 관계자를 업데이트하여 항상 최신 상태 보고서를 받고 기대할 수 있도록하십시오. 단순히 서비스가 복원되었다고해서 통신이 중단되어서는 안된다는 것을 잊지 마십시오! 중요한 이해 관계자는 발생한 상황, 배운 내용 및 향후 상황을 예방할 수있는 방법에 대한 요약 정보를 얻습니다.

이 경우 자동화를 구현하여 이해 관계자를위한 실시간 실시간 상태 페이지를 만들 수 있으며 채팅 도구에 슬래시 명령을 작성하여 해당 페이지를 업데이트 할 수 있습니다.

5. 문제 관리를 지원하기 위해 데이터 수집

복원 서비스는 사건 관리의 끝을 나타내지 않습니다! 실제로, 가장 가치있는 활동 중 일부는 해결 후 발생합니다. 진단 및 영향 데이터를 수집하고 근본 원인 분석을 수행하면 향후 유사한 사고를 피하기 위해 예방 조치를 마련하는 등 주요 사고에 대한 전체 감사를 수행 할 수 있습니다. 또한, 인식 가능한 사고가 다시 발생하더라도 수집해야하는 데이터 종류 및 해결을 위해 필요한 단계에 대한 정의 된 절차를 생성 할 수 있습니다. 이런 방식으로 팀은 단순히 점검표를 참조하고 필요할 때와 시간에 대해 걱정하지 않고 서비스 복원이라는 핵심 목표에 중점을두기 만하면됩니다.

여기서 자동화는 단일 대화 기록 시스템에서 대화 내용과 같은 것을 포함한 해결 활동을 캡처하고 보존 할 수 있습니다. 또한 친숙한 사건 또는 문제의 카탈로그를 작성하고 각 사례에 대한 모범 사례를 강화하여 향후 해결 속도를 높이는 데 도움이됩니다.

결론 : 더 똑똑하지 않은 자동화

더 많은 자동화가 반드시 더 좋은 방법은 아니라는 점에주의하십시오! 인시던트 관리를 지원하기 위해 IT 시스템을 언제, 어디서, 어떻게 연결해야하는지 이해하는 것이 더 중요합니다. 자동화 된 프로세스 증가를 위해 불필요한 복잡성을 추가하고 싶지 않습니다. 목표는 팀이 문제를 효율적으로 해결할 수있는 권한을 갖도록 운영을 최대한 단순화하고 통합하는 것입니다. 주요 사고의 전반적인 비즈니스 영향을 최소화하기 위해 잘 조정 된 프로세스 세트, 지식이 풍부한 직원 및 효과적인 이해 관계자 커뮤니케이션을 촉진하기 위해 자동화를 지능적으로 구현하는 것입니다.