アラート疲れを解消する有効な一手とは?

ITがビジネスに不可欠のツールとなり、むしろビジネスそのものと言って差し支えないほどさまざまなシステムやサービスの利活用が進み、情報システム部門の責任範囲と稼働は増大する一方です。さらに監視ツールの普及拡大により、担当者には日々大量のアラートが届き、アラート疲れによる運用品質の低下、担当者のバーンアウト(燃え尽き症候群)などが懸念されています。なぜ、アラート疲れは起きてしまうのでしょうか。

アラート疲れを解消する有効な一手とは?

健康経営に欠かせない感情労働のケアとは?

少子高齢化が進む日本では生産年齢人口の減少が顕著であり、この先、人材不足はますます進行し、新たな人材の雇用は困難になっていくと考えられます。こうした流れを受け、従業員の健康管理や健康増進の取り組みをポジティブな“投資”ととらえ、経営的な視点で戦略的に実行する新たな経営手法「健康経営」に取り組む企業が増えつつあります。日本政府も国民の健康増進を図る国策の1つとして「健康経営」の普及・推進を掲げ、さまざまな施策を実施しています。

経済産業省でも2016年度より「健康経営優良法人」を制定しています。これは優良な健康経営を実践する大企業や中小企業などを可視化することで、従業員や求職者、関係企業や金融機関などから社会的な評価を受けられる環境整備を目的に、日本健康会議が認定する顕彰制度です。この制度では、大規模の企業などを対象とした「大規模法人部門」、中小規模の企業などを対象とした「中小規模法人部門」の2つの部門を設けています。最新の令和5年版では大規模法人、中小規模法人を含めて着実に認定数は増加傾向にあります。

経済産業省「健康経営の推進について」(令和6年3月)
出典:経済産業省「健康経営の推進について」(令和6年3月)

従業員の健康管理や健康増進に取り組む健康経営では、従業員が50人を超えるすべての企業でストレスチェック制度の実施が義務化されています。施行から数年が経過し、ストレスチェック制度の理解は十分に進みつつある一方、あくまでも制度の目的はメンタルヘルス不調を未然に防止する一次予防に過ぎません。このため、ストレスチェックの実施だけで満足するのではなく、たとえば「感情労働」に従事する従業員のメンタルヘルス不調をどうケアするのかにまで踏み込み、解決策を検討することが求められています。

ちなみに感情労働とは、近年、肉体労働や頭脳労働とは異なる、第3の労働カテゴリとして認識される感情のコントロールが求められる労働を意味します。看護師やケアワーカー、飲食業や宿泊業のスタッフ、小売業の店員、金融機関の窓口、コンタクトセンターのオペレーターなどに代表される感情労働は、対人コミュニケーションによるストレスの蓄積による意欲の低下、限界に達した場合のバーンアウト(燃え尽き症候群)といったメンタルヘルスの問題が発生しやすい業務です。企健康経営に向けて、企業には感情労働のメンタルヘルスケアに対する取り組みも求められているわけです。

従業員がバーンアウトする原因は、対人コミュニケーションの感情労働に限りません。たとえば、医療現場における病棟内のシステムで多くのアラームが鳴動し続けることで、スタッフの感覚が麻痺してアラームに気付けなくなる、アラームへの対応が遅れる「アラーム疲労」でもバーンアウトが深刻化しており、医療の安全を脅かす大きな課題となっています。アラーム疲労におけるバーンアウトの1つの原因が、副腎疲労(アドレナル・ファティーグ)です。これは仕事のストレス、オーバーワークなど副腎の機能低下が続くことでホルモンバランスが乱れ、慢性的な疲労、精神不安、食欲不振、下痢、アレルギー症状などの症状を引き起こす病態のことで、医療的な処置が必要になります。

実は医療現場におけるアラーム疲労と同じような問題が、一般の企業でも起きているのをご存じでしょうか。情報システムの運用業務における「アラート疲れ」と呼ばれるものです。

担当者のアラート疲れが及ぼす深刻な影響

クラウド利活用の増加やハイブリッドワークの浸透、セキュリティ対策の強化、DX推進などにより企業の情報システム部門や運用チームにおける稼働は日々増大しています。それでも、ネットアテストによる「情報システム部門に求められている役割」のアンケートでは「稼働中のシステム・サービスをトラブルなく維持する」(27.1%)という守りの領域の業務が、「システム利用者の要望に応えたITシステムを導入する」(16.4%)という攻めの領域の業務を抑えてトップに位置しています。あくまでシステムやサービスの安定運用は大前提であり、その次に業務効率化に資するデジタル改革が求められているのです。

情報システム部門に求められている役割

ネットアテスト【ネットワーク実態調査2023】情報システム部門が抱えている課題・悩み(2023年11月)
出典:ネットアテスト【ネットワーク実態調査2023】情報システム部門が抱えている課題・悩み(2023年11月)

経営層や従業員から情報システム部門への期待が高まる中、オーバーワークで動きがとれないケースは多いのではないでしょうか。こうした情報システム部門の関連業務を圧迫する大きな要因がが、先の調査でも1位になっている安定したシステム運用業務です。とりわけ監視ツールの普及拡大に伴う大量のアラート発生で、担当者のアラート疲れによるバーンアウトが深刻化しています。ひっきりなしに発生するアラートは担当者の大きなストレス源となり、アラートの見逃し、アラート確認漏れ、インシデント対応の遅れによるMTTR(平均修復時間)の長期化といった運用管理の品質低下にもつながるアラーム疲労と同様の問題になっています。さらにアラート対応に縛られ、かかりっきりになることで、他の業務に十分な時間を割けない問題も生じてしまいます。

アラート疲れから担当者を解放するためには、どのような方法があるのでしょうか。

対応の自動化がアラート疲れを解消する

監視ツールから発信される大量のシステムアラートの中には無関係なアラートや優先度の低いアラート、フラッピングアラート、重複アラート、相関アラートなど、誤検出、誤報など対応不要なものが多く含まれており、放置すれば重要なアラートを見逃すリスクが高まります。

こうした対応不要なアラートのことをアラートノイズと呼びます。アラートノイズが発生する理由は、監視項目の設定ミスやしきい値の設定ミスなどです。これは医療現場のアラーム疲労とも共通します。

アラートノイズに対処するために、考慮すべきいくつかのポイントを紹介します。まずは「監視項目の見直しによる不要な監視の削除」です。システムの重要度や影響範囲を考慮して監視項目を定期的にフィルタリングし、不要な監視を削除することで通知方法の改善が進み、徐々にアラートノイズを減らすことが可能になります。続いて「しきい値の適正化によるアラートの最適化」です。過去のデータを分析し、正常時の負荷の範囲を把握した上で、適正なしきい値を設定することで同じくアラートノイズは減らせるはずです。ちなみに、しきい値の設定は擬陽性(false positive)と偽陰性(false negative)のバランスを考慮して行う必要があります。次に「アラートの優先順位付け」です。KPI(重要業績評価指標)品質などを指標にして、重要度の高いアラートには迅速に、重要度の低いアラートは定期的に確認するなどの重要度を設定することで、対応の優先順位を明確にすることもアラートノイズ対策には有効です。

さらに、オンコール対応についても考える必要があります。インシデントは予期せぬタイミングで発生するものです。ときには日中の通常勤務時間外の対応、オンコール対応が必要となります。しかし、オンコール対応の導入には エンジニアへの高い負荷、対応の属人化、引き継ぎの非効率性といった解決しておくべき課題があります。

しかしながら、オンコール対応はエンジニアには大きな負担となります。深夜や休日の対応は生活リズムの乱れを引き起こし、疲弊やバーンアウトにつながります。加えて特定のエンジニアに対応が集中すると、ノウハウの属人化が進むことにもなります。その結果、エンジニアの離職時に引き継ぎがスムーズにいかないケースも生じます。非効率的な引継ぎは対応の遅れだけでなく、複雑なインシデントの場合には、ノウハウが追い付かず対応が後手に回ってしまうこともあります。

これらのオンコール対応の課題を解決する3つのポイントを解説します。まず「シフト制の導入による負荷分散」です。シフト制によりオンコール対応を複数のエンジニアで分担することで、特定のエンジニアへの負荷集中、ノウハウの集中を防ぐことができます。2つ目は「ナレッジベースの整備によるノウハウ共有」です。過去のインシデント事例と対応方法を蓄積・共有し、エンジニアの属人的なノウハウを組織的に活用できるようになります。そして最後が「引き継ぎドキュメントの整備」です。ドキュメントにインシデントの状況や対応方針、進捗状況などを明記することで、引き継ぎ先のエンジニアが円滑に状況を把握、対応を継続できるようになります。

こうした対応を行うことで、一定数のアラートノイズを減らすことができ、アラート疲れの原因もかなり取り除くことができるでしょう。それでも、エンジニアのシフト制によるオンコール対応といった人力による作業は残るため、一定以上の効果が望めない可能性もあります。この頭打ちの状況を解消するには、人力の対応から自動化対応へのシフトも検討すべきでしょう。手近なところでは、アラートを集約して自動エスカレーションする、監視アラートの分類を自動化するなどの対策も有効です。さらに1歩踏み込むのであれば、SOAR(Security Orchestration, Automation and Response)の活用によるインシデント対応の自動化、AIOps(Algorithmic IT Operations)の活用によるIT運用管理業務の自動化、効率化も検討すべきでしょう。将来的にはIT運用管理業務を完全に自動化することで、NoOps(No Operations)、ゼロタッチオペレーションといった人間の介入を不要にする仕組みづくりを目指すことがゴールといえるかもしれません。

煩雑な監視アラートの判断業務を自動化するなら

NoOpsやAIOps、ゼロタッチオペレーションを目指すのであれば、その布石としてNTT Comが提供する「Kompira(コンピラ)」をおすすめします。これはTier1業務の無人化、Tier2、3業務の効率化や業務の自動化や効率化により、運用担当者を自動化エンジニアへシフトできる運用自動化プラットフォームです。Kompiraではアラート判断を自動化する「AlertHub(アラートハブ)」、電話の通知を自動化する「Pigeon(ピジョン)」、構成管理を自動化する「Sonar(ソナー)」をはじめとする業務ごとの自動化サービスをはじめ、セキュアなリモート環境の構築を自動化する「Greac(グリーク)」、システム全体の業務フローを自動化する「Enterprise(エンタープライズ)」をシリーズとして提供しています。

今回、注目したいアラートの判断業務を自動化する「Kompira AlertHub(コンピラ アラートハブ)」は、これまでエンジニアのスキル頼りだった自動化が誰でも簡単に設定可能です。クラウド、データセンター、オフィスネットワークのフラッピングといったトータルな監視アラート判断業務を、容易に自動化できることが大きな強みとなっています。加えてメッセージ内容、監視対象の状態、時間経過を高度な条件でアラートメッセージの切り分けも容易です。

監視アラートのフィルター、インシデントエスカレーションの自動メール・自動電話、インシデント1次対応の自動化、切り分け用のデータ収集自動化、自動インシデント対応、レポート作成自動化、インシデント・チケットの自動起票に対応できる特長も持っています。さらに、さまざまなツールとの連携も可能です。既存のツールをそのまま活用しながら連携、統合を進めていくことで、スムーズかつ効率で気に監視アラートを自動化できるようになります。

次に、大まかな監視アラート処理の流れを解説します。まず監視システムがインシデントなどのイベントを検知すると、メールやWebhookなどでKompira AlertHubに通知が入ります。通知を受けたKompira AlertHubは事前に設定されたルールに従ってアラートを分類し、深刻度を深刻度の変化などを条件としてトリガーが発動し、次の適切なアクションを実施します。

担当者のアラート疲れを解消し、ストレスを軽減することで、バーンアウトを未然に防ぐ監視アラートの自動化のことなら、まずはNTT Comに相談してみてはいかがでしょうか。これは情報システム部門の業務改善のみならず、きっと健康経営の推進や顧客サポート向上の実現にも貢献することでしょう。

コラム一覧へ

このページのトップへ