監視について勉強している

随時更新(予定)

はじめに

最近、仕事でちょっと監視にからむところがあったので勉強している。
勉強したことを忘れないように、というところと、忘れてもすぐに思い出せるように、ということでメモ。

なぜ監視をするのか

  • 障害を(迅速に)検知するため
    • 障害が発生したことを検知
    • 障害の場所や影響を検知
  • 障害を予防するため
    • 徐々に不足していくリソースに気づく(ディスク使用率等)
    • 急激なリソースの変化に気づく(アクセス急増によるCPU使用率やメモリ使用率、ディスクI/O使用率の変化など)

監視の対象

  • NW機器
    • ルータ
    • スイッチ
      • 機器のダウン/アップの検知
      • 特定のポートのダウン/アップの検知
  • サーバ
    • プロセスの起動
    • ログの内容(ERRORログが出ていないか)
    • 各種リソース(Load Average、CPU使用率、メモリ使用率、ディスク使用率、ディスクI/O使用率、など)

監視の種類

  • 死活監視
  • SNMP監視
  • プロセス監視
  • リソース監視
  • ログ監視