統合監視とは? 仕組みや統合監視サービスを紹介
クラウドシフトが加速する潮流を受けて、企業のITインフラシステム・ネットワークのマルチクラウド化、マルチベンダー化が進んでいます。これらをツールで完全にモニタリングする「統合監視」のメリットや導入のポイントを解説します。
クラウド活用の増加で運用管理の稼働が増えている
近年、コスト削減や業務効率化を目的としてAmazon Web Services(AWS)、Google Cloud Platform (GCP)、Microsoft Azure(Azure)といったサービスを活用する企業が増えています。これらのパブリッククラウドを複数導入するマルチクラウドに加え、プライベートクラウド、オンプレミスなどを加えたハイブリッドクラウド運用が今後、企業のデータ利活用の主流になっていくでしょう。総務省「令和4年版 情報通信白書」によると、「(クラウドサービスを)全社的に利用している」もしくは「一部の事業所または部門で利用している」とした回答した企業は全体の7割にまで達しています。
クラウドサービスの利用状況
とはいえ、もはや企業のIT予算は運用管理から開発へとシフトしており、ハイブリッドクラウドの運用にもコスト削減や効率化が求められています。このためクラウドサービスの利用は増えても、運用管理の予算は増えないという悩ましい状況に陥っているのです。さらに担当者の稼働面についても、増え続ける端末やクラウドサービスの運用管理に追われていて、業務負荷が増えているというケースは少なくありません。その要因としては、サービスごとに設定・管理工数が必要、手軽に導入できるがゆえのサーバー乱立に伴う負荷増大、パブリッククラウド、プライベートクラウド、オンプレミスの併用に伴うマルチ環境化・マルチベンダー化で運用管理が煩雑化し、フレキシブルな運用が求められているなどが考えられます。
クラウドサービスでは、ベンダーごとに専用の監視ツールを無料で提供していることも多く、活用している企業も少なくないでしょう。しかし、無料で利用できるとしても、複数の監視ツールを使い分けることによって、監視工数が増加する、故障調査に時間がかかるといったマイナスの側面も現れてきます。こうした運用管理に関する問題を解決する考え方として、いま世界中で採用が進んでいるのが「統合監視」です。
煩雑なクラウド運用管理を解消する「統合監視」とは
オンプレミスの物理サーバー環境やクラウドの仮想サーバー環境、複数環境に点在するさまざまなベンダーのサーバーやネットワーク機器などを含むITインフラを1つのツールで監視する運用方法を統合監視と言い、そのツールを統合監視ツールと呼びます。いわば、クラウド監視(マルチクラウド監視、ハイブリッドクラウド環境監視)、サーバー監視、ネットワーク監視、セキュリティ監視などをひとまとめにして実施するという考え方になります。たとえば、3つ以上のベンダー監視ツールを利用している、Zabbixなど2つ以上の有償監視ツールを利用している、3種類以上のベンダーのサーバーやネットワーク機器を利用している、担当者不足で柔軟かつ迅速な故障対応ができないといった課題を抱える企業・組織であれば、統合監視ツールの導入を検討すべきでしょう。
統合監視はオブザーバビリティ(Observability)という概念にもとづいていて、従来のモニタリング(監視)とは一線を画します。オブザーバビリティとはObserve(観察する)とAbility(能力)を組み合わせたもので、日本語に翻訳すると「可観測性」や「観察する能力」となります。モニタリング(監視)は「何が起きているのかを見続けること」に対し、オブザーバビリティは「予期せぬことが起きたときに、なぜそれが起きたのかを突き止めること」の違いがあります。もっと分かりやすく解説すると、モニタリングは監視方法、オブザーバビリティは監視体制です。オブザーバビリティの実現に不可欠な要素の1つがモニタリングになります。
従来のシステム監視では、ログに吐き出されるエラーメッセージを監視したり、ログでは判別できない詳細なエラーをアプリケーションパフォーマンス管理(APM)で監視したり、部門や監視対象ごとに監視ツールがサイロ化されているのが一般的でした。しかし、昨今のITシステムはオンプレミスとクラウドを併用する複雑な構成、サーバーレスやマイクロサービスといったクラウドネイティブ技術の普及などを背景に、目まぐるしくシステム構成の関係性が変化します。このようなダイナミックに変動する状況の全体像を、「何が起きているのかを見続ける」従来のモニタリングだけで把握することは困難です。
そこでオブザーバビリティではメトリクス、トレース、ログという3種類のデータを活用します。メトリクスで「何が起きているか」を秒単位で検知し、トレースで「どこで問題が起きているのか」を判別、ログで「なぜ問題が発生したのか」を究明して、各データを相関づけて連携することでオブザーバビリティのための活用へとつながっていくのです。単なるデータ収集で終わることなく、収集したデータにもとづき、「どこまで容易に状況を把握し、事象を正確に把握できるか」「どこまで容易に観測できることが担保されているか」がオブザーバビリティにおける重要なポイントとなります。
統合監視の仕組みとは、監視方法・監視対象とは
オブザーバビリティの思想にもとづいた統合監視について、さらに具体的にひも解いていきます。統合監視に限らず、一般的な監視では「データ収集」「モニタリング」「通知」のプロセスがあります。
データ収集では、監視対象からデータを収集し、データ分析や加工・編集のしやすい形式で保存します。データ収集の仕組みは、監視対象上でデータ収集用のアプリケーション(エージェント)を各監視対象にインストールして動く「エージェント型」、アプリケーションをインストールせず、アプリケーション(エ―ジェント)のSNMP(Simple Network Management Protocol)やWMI(Windows Management Instrumentation)などの標準プロトコルを利用して動く「エージェントレス型」に大別されます。
従来のモニタリングは、単純な1つの監視対象から取得した測定データを統計的に集計し、静的なしきい値に対する評価をレポートやダッシュボード上で行います。しかし、この方法では、コンテナやサーバーレスといったクラウドネイティブ技術が普及した現代の複雑なシステム間の相関関係や運用依存性を把握することは困難です。統合監視におけるモニタリングとは、従来のモニタリングを包含するオブザーバビリティの監視体制です。メトリクス、トレース、ログのデータを活用し、収集したデータにもとづき、正確に状況や事象を把握し、容易に観測できる体制づくりが重要なポイントになります。
統合監視の通知では、異常検知時にメールやチャットなどで担当者にアラートを通知します。自社の運用方針に沿って、各監視対象に対して事前にしきい値を設定し、その数値を超えた場合やシステムエラー発生時などにアラートが通知されます。それによって、担当者は迅速に異常検知を把握でき、故障対応を行えるでしょう。
統合監視の主な監視対象となるのはIaaS、PaaS、SaaSといったクラウド環境および物理サーバーなどのオンプレミス環境です。すべての環境に対し、統合監視では3種類の監視を実行します。監視対象が停止していないかを監視する「死活監視(Ping監視)」、CPUやメモリといったサーバーや機器のリソースを監視する「パフォーマンス監視」、サーバーや機器で発生したイベントを監視する「ログ監視」です。
ちなみに統合監視ツールを選定する際には、複数のサービスの比較検討を行うべきです。監視対象の範囲やエージェントの有無、マルチテナント対応であるか、運用が自動化できるか、手厚いプロのサポートが受けられるかなど、これらの指標を踏まえて検討してみるのがよいでしょう。
信頼できるプロに統合監視を託すという選択も
オンプレも含めたハイブリッドクラウド環境の統合監視を実現するには、膨大な稼働や時間、費用が必要になります。スムーズな統合監視の導入を考えるのであれば、確かな知見を持つプロへのアウトソーシングを選択するのが好手かもしれません。たとえば、NTTコミュニケーションズが提供する「マルチクラウドマネジメント」は、最先端のオブザーバビリティ(可観測性)プラットフォーム「Datadog」と長年蓄積したNTTコミュニケーションズの運用ノウハウを融合したマルチクラウド統合監視サービスです。
クラウドアプリケーションのモニタリングとセキュリティのプラットフォームを提供するDatadog社は、Forrester Research社により「AIOps」のリーダー企業に選出された実績を持つ企業です。同社が提供するDatadogを活用することで、エンドツーエンドのトレース、メトリクス、ログを統合可能で、一般的な監視ツールではカバーが困難なPaaS、SaaS、FaaSを含むすべてのITインフラを保護し、一元管理できるようになります。
AWS、GCP、Azureなどの複雑なクラウド環境に精通したスペシャリストによる運用体制も強みの1つと言えるでしょう。スピーディにクラウド運用を開始することができ、クラウド利活用の価値を最大限生かすことが可能です。クラウドに限らず、オンプレも含め、サードパーティとの統合も踏まえて、複雑化するITインフラ環境全体を一元的に監視運用し、そのうえ監視運用にとどまらず、お客さまのITインフラの最適化提案・構築までトータルにサポートします。
マルチクラウドマネジメントの導入により、複数の監視項目のシステム稼働状況の相関関係を確認する「異常の自動検知による故障時のダウンタイム削減」効果が見込めます。加えて、すべてのシステムの完全な可視化による「運用に伴う稼働削減やコストの削減」、新規追加分の仮想マシン(VM)などのシステム監視をすぐにスタートできるため「手動登録から自動監視への移行=運用自動化」といったメリットも得られます。
マルチクラウドマネジメントは、クラウド活用のメリットを最大限に引き出しながら、すべてのITインフラの一元的、高品質な運用により、企業のDX実現をサポートします。IT部門の運用管理の稼働を最適化し、本来の社内DXに貢献する開発業務に集中するためにも、導入を検討してみてはいかがでしょうか。