Log AnalyticsでLogやリソース情報が取得出来なくなった時にやった事

 

Log Analyticsを使っていると、Azure Portal上で仮想マシンとの接続Statusは問題がなくても、実際のLog送受信やリソース情報が取得できていない事象に当たる事があります。

Log Analyitcs-仮想マシン間のLogやパフォーマンス情報転送を復活させる為に、色々やってみたことをメモとして残します。なお、下記のサイトや、マイクロソフトサポート様に色々教わりながら試行錯誤してみました。

https://docs.microsoft.com/ja-jp/azure/azure-monitor/platform/agent-linux-troubleshoot
https://docs.microsoft.com/ja-jp/azure/azure-monitor/platform/agent-manage
https://docs.microsoft.com/ja-jp/azure/azure-monitor/insights/solution-agenthealth

※これは1例です。残念ながらこれで治らないケースもあります。

1 .Log Analyticsのワークスペースに仮想マシンからのLog、パフォーマンス情報の取得状況確認

実際にデータ転送状況の確認は、Heartbeatの受信確認で行います。Heartbeatが受信出来てない場合はデータも受信出来ていません。

Log Analyticsのログ検索で、以下のコマンドを実行すると、5分以上HeartBeatが取得できていない仮想マシンの情報が取得できます。取得出来ていた場合には結果が表示されません。

Heartbeat
| summarize LastCall = max(TimeGenerated) by Computer
| where LastCall < ago(5m)

対象の仮想マシンがいつまで情報を取得出来ていたのかは、以下のコマンドで取得できます。

Heartbeat
| where Computer == “仮想マシン名”
| summarize LastCall = max(TimeGenerated)

※HeartBeatが取得出来ている場合でも、実際のログ採取ができてないケースもあります。


2
.Log Analyticsで情報取得出来てなかった場合のリカバリを試みる

コマンドラインでのアンインストール、インストール、Azure Portal上での再接続、サーバリブートでした。今回は/tmpで実施しています。(権限上の問題がある場合は、Sudoで実行して下さい)

まず、サービスの再起動を試みます。

[ユーザー名@ホスト名 tmp]$ systemctl restart waagent.service
[ユーザー名@ホスト名 tmp]$ /opt/microsoft/omsagent/bin/service_control restart

今回は、それで改善されなかったため、再インストールを行いました。

現在接続されている、ワークスペースを解除します。

[ユーザー名@ホスト名 tmp]$ /opt/microsoft/omsagent/bin/omsadmin.sh -X

OMSエージェントのパッケージをダウンロードします。

[ユーザー名@ホスト名 tmp]$ wget https://github.com/microsoft/OMS-Agent-for-Linux/releases/download/OMSAgent_v1.12.15-0/omsagent-1.12.15-0.universal.x64.sh

#マイクロソフト様のサイトには以下の通り記載があります。こちらでも同じ事が可能です。

#wget https://raw.githubusercontent.com/Microsoft/OMS-Agent-for-Linux/master/installer/scripts/onboard_agent.sh && sh onboard_agent.sh –purge

OMSエージェントをアンインストールします。

[ユーザー名@ホスト名 tmp]$ ./omsagent-1.12.15-0.universal.x64.sh –purge

OMSエージェントをインストールします。

[ユーザー名@ホスト名 tmp]$ sh omsagent-1.12.15-0.universal.x64.sh –install -w ”workspace id” -s “shared key” 

このコマンド実行後にCodeが0になっている場合は、インストールが終わっています。

AzurePortal上で該当のマシンに対して、切断、接続を実施する事で、正しく接続されているはずです。。。ですが、実際には3.そのほかにやった事に書いた通りうまく行きませんでした。

3.その他にLog AnalyticsへのLog転送状況改善にやった事

実際に遭遇した内容としては、以下の通りの事象にあいました。

・LAD(Linux Azure Diagnostics)がインストールされていると、アンインストール、インストールがうまく行かないケースがあるそうです。この場合は、LADのアンインストールを先に実施しました。

・installではエラーになるケースがあった。この場合は、–installの部分をーーupgradeにすることでうまく行くことがありました。

・接続は出来ているが、OMSAgent Runningにならない。この際に、OMSエージェントの再起動でもNGだったため、サーバの再起動で復旧出来ました。(理由はいまだに不明です。)

※いつもの事ですが、マイクロソフトのサポート様にかなり助けて頂いております。