1. Managed Cloudの構成

Managed Cloud Standardの監視

Version:
日本語翻訳に関する免責事項

このページの翻訳はAIによって自動的に行われました。可能な限り正確な翻訳を心掛けていますが、原文と異なる表現や解釈が含まれる場合があります。正確で公式な情報については、必ず英語の原文をご参照ください。

Managed Cloudソリューションのパフォーマンスと可用性については、組み込みの監視サービスを使用して、常に最新の状態に保つことができます。

  • Metrics exporters - サービスやインフラストラクチャから既存のPrometheusサーバーにメトリクスをエクスポートするのに役立つライブラリ。

  • Prometheus - サービスからメトリクスをスクレイピングし、データを集約して保存し、Grafanaなどの他のサービスにそのようなメトリクスの収集を許可します。

  • Grafana - Prometheusからメトリクスを収集し、それらを視覚化します。

Monitoring services in Managed Cloud containers overview.

Grafanaでの認証

GrafanaはAzure Active Directoryと統合されており、基本認証は無効になっています。したがって、Sign in with Microsoft認証オプションを選択し、Microsoftの職場アカウントを使用する必要があります。

Login to Grafana with Microsoft account

ダッシュ ボード

ダッシュボードは、ダッシュボード名で検索したり、1つ(または複数)のタグでフィルタリングしたり、スター付きステータスでフィルタリングしたりできます。ダッシュボード検索には、ダッシュボードの上部ナビゲーション領域にあるダッシュボードピッカーからアクセスできます。ショートカットFを使用してダッシュボード検索を開くこともできます。

Dashboard search in Grafana

次のデフォルトのダッシュボードを使用できます。

ダッシュボード

形容

コンテナの概要

すべてのコンテナを、その名前空間とポッドとともに一覧表示します。各コンテナのステータスと、正常/異常または停止したコンテナの合計数を提供します。

ホストディスクの概要 (Linuxのみ)

ノード、ファイルシステム、ディスクのI/Oメトリクス (読み取り/書き込み時間、ファイルシステムの使用可能スペースなど) を公開します。

ホストディスクの概要 (Windowsのみ)

ファイル・システムの使用可能なスペースを示します。

Ingressの概要

各SitecoreロールとGrafanaのIngressメトリクスを提供します。

Kubernetesクラスタ

Kubernetesクラスターの概要について説明します。

Kubernetesポッドの概要

システムを含むすべての名前空間のポッドごとのメモリとCPUの要求、制限、および使用率を公開します。ライブログを提供します。

Linuxノードの概要

各Linuxノードのメモリ/CPU/ディスク使用率に関する詳細情報を提供します。

MsSqlエラスティック プール

MsSqlエラスティック プールの使用率に関する詳細情報を提供します。

Redisサーバーの概要

一般的なRedisメトリックを公開します。ネイティブRedisの「INFO」コマンドと似ています。

Windowsノードの概要

各Windowsノードのメモリ/CPU/ディスク使用率に関する詳細情報を提供します。

アラート

アラートは、Managed Cloudソリューションで問題が見つかったときにプロアクティブに通知します。これにより、システムのユーザーが問題に気付く前に問題を特定して対処できます。次の表に、使用可能なアラートを示します。

形容

条件

資源

時代

ノード統計量

メモリの割合は >95%

ノードのメモリ使用率が95% を超えている。

Kubernetesノード

10分間

CPUの割合は >95% です

CPU負荷の割合が95% を超えている。

Kubernetesノード

10分間

インフラ

ポッドは30mの準備ができていません

ポッドのステータス != 準備完了

Kubernetesポッド

30分間

Kubeletがダウンしている

kubeletジョブは最後の15分間ダウンしています。

Kubernetesジョブ

15分間

ポッドが頻繁に再起動する

ポッドは少なくとも5分に1回再起動されます。

Kubernetesポッド

1時間

デプロイ世代の不一致

デプロイは失敗しましたが、ロールバックされていません。

Kubernetesのデプロイ

15分間

デプロイメント・レプリカの不一致

デプロイが1時間を超えて、予想されるレプリカ数と一致しませんでした。

Kubernetesのデプロイ

1時間

DaemonSetポッドの準備ができていません

必要なポッドのすべてがスケジュールされ、準備ができているわけではありません。

Kubernetesデーモンセット

15分間

DaemonSetポッドがスケジュールされていない

必要なポッドのすべてがスケジュールされているわけではありません。

Kubernetesデーモンセット

10分間

DaemonSetポッドのスケジュールが間違っている

DaemonSetのポッドは、実行されるべきでない場所で実行されています。

Kubernetesデーモンセット

1時間

CPUスロットリングが高い

ポッドのCPUスロットリングの割合が25% を超えている。

Kubernetesポッド

15分間

警告イベントが発生しました

Warning型の1つ以上のイベントが名前空間で発生しました。

Kubernetes名前空間

1時間

ノードの準備ができていません

ノードの準備ができていません。

Kubernetesノード

1時間

Kubernetesのバージョンの不一致

Kubernetesコンポーネントのさまざまなセマンティック バージョンが実行されています。

Kubernetesの

1時間

Kubernetes APIサーバー クライアントでエラーが発生しています

Kubernetes APIサーバーで複数のエラーが発生しました。

Kubernetesの

5分間

ノードがポッドの容量を使い果たしています

ノードポッドの容量は95%以上です。

Kubernetesノード

15分間

ディスク容量が >90% 使用されている

ノードのディスク・スペースが90% 以上使用されている。

Kubernetesノード

1時間

Sitecoreロール

HTTPリクエストは5xx >10です

5xx HTTPレスポンスが10を超えています。

nginx_ingress_controller

10分間

ページの平均応答時間 >1秒

平均応答時間が1秒を超えている。

nginx_ingress_controller

30分間

平均ページ応答時間 >30秒

平均応答時間は30秒を超えています。

nginx_ingress_controller

5分間

可用性テストがオン /sitecore/service/keepalive.aspx

/sitecore/service/keepalive.aspxの可用性テストに失敗しました。

Sitecoreポッド

5分間

Redisキャッシュ

%で示す接続クライアントの平均数は>80%

接続されているクライアントの数は、redis_config_maxclientsと比較して80%以上です。

Redisキャッシュ

30分間

サーバーの負荷は >95% です

Redisのプロセッサ負荷率は、過去30分間で95%を超えています。

Redisキャッシュ

30分間

MSSQLエラスティック プール

データベース スループット ユニット (DTU) は >95%

平均スループット単位 (DTU) は95% を超えています。

30分間

ストレージの割合は>75%

平均ストレージの割合は75%以上です。

5分間

CPUは>95%

平均CPU使用率は95%を超えています。

5分間

SQLデータベースのデッドロック

データベースはデッドロックされています。

データIOの割合は>95%

平均データIOの割合は95% を超えています。

5分間

ログIOの割合は>95%

平均ログIOの割合は95% を超えています。

5分間

労働者の割合は>95%

最大労働者の割合は95%以上です。

5分間

DB層でサポートされる同時セッション数は >95% です

DB層でサポートされる最大同時セッション数は95% を超えています。

5分間

失敗したデータベース接続の数 >5

データベースには、過去5分間に5件の接続障害があります。

5分間

平均インメモリOLTPストレージ >95%

平均的なインメモリOLTPストレージは95% を超えています。

30分間

この記事を改善するための提案がある場合は、 お知らせください!