Datadogのライブプロセス(Live Process)を使った監視設定手順纏め

Azure,DataDog,Others

Datadogのライブプロセス(Live Process)の設定手順について纏めてみました。

Datadogを使うと仮想マシン(Azure VM)OSのプロセスやサービスのステータス表示、監視する事が出来ます。
ライブプロセス(Live Process)を使うとOSのプロセスの状況をほぼリアルタイムに一元的にDatadogで見る事が出来ます。
仮想マシン(Azure VM)だけではなく様々なパブリッククラウドやオンプレミス環境のリソースも監視する事が出来ます。

今回はライブプロセス(Live Process)の有効化設定からLinux(Cent OS)のプロセスやWindows Server 2022のサービスのステータス確認や監視設定手順を纏めています。

    • Datadog Agentでライブプロセス(Live Process)有効化
    • Datadogでライブプロセス(Live Process)表示確認
    • Datadog Monitorsでアラートルール作成、監視

スポンサーリンク

Datadogのライブプロセス(Live Process)とは

プロセスの状態取得方法は2種類

Datadogのプロセス情報取得方法は2つあります。
ライブプロセス(Live Process)とプロセスになります。
共にほぼリアルタイムにプロセスのステータスを取得する事が出来ます。

    • ライブプロセス(Live Process)はOSのプロセスの情報を纏めて確認出来ます。
      • Datadog Agentは実行中のすべて(除外項目を除く)のプロセスを送信します。
      • InfrastructureのProcessesでプロセスを一覧表示する事が出来る。
    • プロセスはプロセス単位のステータスを確認します。
      • Datadog Agent側で個別に送信するプロセスを指定します。
      • 個別でプロセスの実行状況を確認(監視)できる。

プロセス監視設定手順はこちらに纏めています。

プロセスのCPU使用率やメモリ使用率も取得出来る

Datadogのライブプロセス(Live Process)はDatadog APMの機能の1つです。
ライブプロセス(Live Process)を使用することでプロセスのCPUの使用状況、メモリの使用状況等が取得出来ます。
ライブプロセス(Live Process)で取得された情報はDatadog上でリアルタイムに表示が出来ます。

ライブプロセス(Live Process)にはEnterpriseのライセンスが必要

ライブプロセス(Live Process)の利用にはEnterpriseのライセンスが必要となります。

料金(Datadog)

———

ライブプロセス(Live Process)を使ってLinux(Cent OS)のプロセス監視

LinuxにはCent OS 7を利用しています。
プロセス監視の対象は時刻同期のchrony(chronyd(デーモン))としています。 

Datadog Agentをインストール 

Datadog Agentをインストールします。
インストール手順についてはこちらを参考下さい。

ライブプロセス(Live Process)を有効化

ライブプロセス(Live Process)の設定はdatadog.yamlにあります。
ライブプロセス(Live Process)を有効化します。
ライブプロセス(Live Process)のデフォルト値は無効になっています。
設定はDatadog公式サイトを参考に進めます。

ライブプロセス(Datadog公式)

※ユーザーの実行権限等は確認し、必要に応じてsudoでコマンド実行します。

ライブプロセス(Live Process)の有効化

datadog.yaml(/etc/datadog-agent/datadog.yaml)を編集します。
process_configにあるprocess_collectionの設定値をenabled: trueにします。

※設定値はコメントアウトされていますので、コメントアウトを外します。

【変更前】

【変更後】

process_config:
 process_collection:
  enabled: true

Datadog Agentを再起動します。

[root@test-vm-01 ~]# systemctl restart datadog-agent

取得されたプロセス情報を表示

ライブプロセス(Live Process)で取得された情報は、InfrastructureのProcessesでプロセスや各リソースのProcessesで確認出来ます。

プロセス確認

InfrastructureのProcessesを確認します。
Datadogで取得されているプロセスやサービスの情報一覧が見れます。
プロセス単位のCPU使用率やメモリ使用率も確認出来ます。

※画面サンプルは表示リソースを制限していますが、すべてのリソースを纏めて表示する事や特定のプロセスだけに絞り込んで表示も出来ます。

各リソースのProcessesでも確認出来ます。  

アラートルール作成

ライブプロセス(Live Process)は監視設定にも利用出来ます。
今回はサンプルとしてchronydを監視します。 

アラートルール作成
MonitorsでLive Processを選択します。
select processesでは監視するプロセスの文字列を指定します。
検索されたプロセスが存在有無や数による監視が出来ます。
Search forにchronydを設定します。

プロセスの数を指定します。
今回は1を下回った場合にアラートとしています。

※Warningは指定していません。

Notify your teamでアラート名や通知方法を指定します。
chronyd Live Process Check Ng {{host.name}}としています。
本文にはメール通知する場合は通知先や通知内容を指定します。
今回はTESTとしています。

Criateでアラートルールが作成されます。

アラートルール確認

作成されたアラートルールを確認します。

アラートルール表示
Managed Monitorにアラートルール一覧と各アラートルールのステータスが表示されます。
作成したアラートルールも表示されています。

選択するとアラートルールの詳細が表示されます。
ステータスの状態(履歴)も表示されます。
OKとなっておりプロセスのステータスが取得出来ている事が確認出来ます。

chronydを停止してアラートを確認

監視対象のプロセス(chronyd(デーモン))を停止してアラート発生を確認します。

アラート確認
chronydを停止します。

[root@test-vm-01 ~]# systemctl stop chronyd

しばらくするとアラートルールのステータスがALERTになります。
Status & HistoryでもAlertとなっている事が確認出来ます。
chronydを起動します。

[root@test-vm-01 ~]# systemctl start chronyd

アラートルールのステータスがOKになります。
Status & HistoryでもOKとなっており、ALERT状態から回復しています。

Eventsでアラートの履歴を確認します。
[Triggered]と[Recovered]の履歴が確認出来ました。

※一部画面は別アラート発生時のもの使用しています。

ライブプロセス(Live Process)を使ってWindows Serverのプロセス(サービス)監視

今回はWindows Server 2022を利用しています。
プロセス(サービス)監視の対象はW32Time(Windows Time)としています。

Windows ServerにDatadog Agentをインストール 

Windows ServerにDatadog Agentをインストールします。
インストール手順についてはこちらを参考下さい。

ライブプロセス(Live Process)を有効化

ライブプロセスの設定はdatadog.yaml(C:\ProgramData\Datadog\datadog.yaml)にあります。
今回はDatadog Agent Managerを利用して設定します。
デフォルトでは無効化されているので有効化します。

設定はDatadog公式サイトを参考に進めます。

ライブプロセス(Datadog公式)

ライブプロセス(Live Process)を有効化

Settingsを使ってdatadog.yaml(/etc/datadog-agent/datadog.yaml)を編集します。
process_configにあるprocess_collectionの設定値をenabled: trueにします。

※設定値はコメントアウトされています。コメントアウトを外します。

 

process_config:
 process_collection:
  enabl
ed: true

取得されたプロセス情報を表示

ライブプロセス(Live Process)で取得された情報は、InfrastructureのProcessesでサービスや各リソースのProcessesで確認出来ます。

プロセス情報を表示

InfrastructureのProcessesを確認します。
Datadogで取得されているプロセスやサービスの情報一覧が見れます。
プロセス単位のCPU使用率やメモリ使用率も確認出来ます。

※画面サンプルは表示リソースを制限していますが、すべてのリソースを纏めて表示する事や特定のプロセスだけに絞り込んで表示も出来ます。

各リソースのProcessesでも確認出来ます。

アラートルール作成

ライブプロセス(Live Process)は監視設定にも利用出来ます。
今回はサンプルとしてW32Time(Windows Time)を監視します。 

アラートルール作成
MonitorsでLive Processを選択します。
select processesでは監視するプロセスの文字列を指定します。
検索されたプロセスが存在有無や数による監視が出来ます。
Search forにW32Time(Windows Time)を設定します。

プロセスの数を指定します。
今回は1を下回った場合にアラートとしています。

※Warningは指定していません。

Notify your teamでアラート名や通知方法を指定します。
Windows Time Live Process Check Ng {{host.name}}としています。
本文にはメール通知する場合は通知先や通知内容を指定します。
今回はTESTとしています。

Criateでアラートルールが作成されます。

アラートルール確認

作成されたアラートルールを確認します。

アラートルール確認
Managed Monitorにアラートルール一覧と各アラートルールのステータスが表示されます。
作成したアラートルールも表示されています。

選択するとアラートルールの詳細が表示されます。
ステータスの状態(履歴)も表示されます。
OKとなっておりプロセスのステータスが取得出来ている事が確認出来ます。

サービスを停止してアラート確認

監視対象のサービスを停止してアラート発生を確認します。

アラート確認
W32Time(Windows Time)を停止します。
しばらくするとアラートルールのステータスがALERTになります。
Status & HistoryでもAlertとなっている事が確認出来ます。
W32Time(Windows Time)を起動します。
アラートルールのステータスがOKになります。
Status & HistoryでもOKとなっており、ALERT状態から回復しています。

Eventsでアラートの履歴を確認します。
[Triggered]と[Recovered]の履歴が確認出来ました。

※画面はサンプルです。

※一部画面は別アラート発生時のもの使用しています。

最後に

今回はDatadogのライブプロセス(Live Process)の有効化、表示、監視設定の手順について纏めてみました。
Windows Server、Linux共に設定有効化ですぐに利用出来ました。
非常に簡単に設定出来て複数のサーバーを一元的に管理できるのは非常に便利な機能かと思いました。

引き続きDatadogについて色々やってみたいと思います。

プロセス監視設定手順についてはこちら。

仮想マシン(Azure VM)のメトリック(リソース)監視設定についてはこちらに纏めています。
メール通知についてもこちらに記載しています。

DatadogへのOSログ転送手順纏めについてはこちら。

スポンサーリンク