バックアップが失敗した際の原因と対処法 - JUSTPLAYER インターネットサービス

Top / サポート情報 / マニュアル / ハイレスポンスプライベートクラウド / 仮想マシンのバックアップと復元 / バックアップが失敗した際の原因と対処法

バックアップが失敗した際の原因と対処法

印刷

このページでは、バックアップ(レプリケーション)が失敗した際の原因と対処法をご案内しています。

仮想マシンのバックアップが失敗、またはスキップされた際に、Xen Orchestraのサーバーから「Backup report」メールが届きます。この状態が起きた場合でも仮想マシンのサービスは継続されますが、万一、Xenのホストに障害が発生し、ストレージの救出ができなくなった場合、復元ポイントがなくなる恐れがあります。

バックアップの失敗は、おもに3つの原因により発生します。

  1. ローカルストレージの残り容量が足りないとき
  2. 仮想マシンのスナップショットが多いとき
  3. 仮想マシンのディスクサイズが大きくなりすぎたため、RPO=1時間(1時間に2度)のバックアップでは間に合わなくなったとき

頻繁に発生する場合、根本的にはディスク容量を空け、バックアップに間に合うように特定のローカルストレージに対する負荷を下げるか、RPO時間を延ばすなどという方法があります。

下記に、エラー文ごとの原因と対処法を記載していますので、お客様で対処が可能なものはご対応をお願いいたします。

下記に記載している以外のエラーがでたり、対処をしてもすぐに元に戻ってしまうなど、お客様にて問題が解決しない場合は、お手数ですが当社サポート、または担当営業へご連絡ください。

Backup reportについて

送信元メールアドレスは「sysadmin@justplayer.com」、件名は「[Xen Orchestra] failure(or skipped) − Backup report for バックアップジョブ名」です。メール本文に、該当のバックアップジョブの情報と、エラー文が記載されていますのでご確認ください。

必要とされるストレージ容量について

Xenで必要とするストレージ容量は、現時点で利用しているストレージ容量だけでなく、仮想マシン内部のデータ更新差分にも影響します。そのため、一概に「何ギガバイトあれば良い」と判断する事はできません。

これはXenのスナップショットが、バッキングストアを要求するタイプのスナップショットシステムのためです。スナップショットをとってから次のスナップショットまでの間、ストレージの更新量が多い(データベース、ログが多いシステムなど)と、その間の差分ディスクが増えます。スナップショットを消去するときには、差分ディスク同士の結合処理をしなくてはなりませんが、システムの不慮の停止を防ぐため、元のデータを残したまま結合処理をするため、一時的に大きなストレージの空き容量が必要になります。この結合処理は、スナップショットの削除直後ではなく、追ってシステムが自動的に行うため、若干遅れて作業されます。

下記の問題は概ね、システムが要求するストレージ容量対して、必要な容量が足りていないことが問題の素因となっています。

SR_BACKEND_FAILURE_44は純粋にストレージ容量が足りない時のエラーですが、SR_BACKEND_FAILURE_109はマージ処理後の削除作業がストレージがたりない為に失敗するなど、全てが概ねディスクの残り容量と関連していることに注意が必要です。また、ストレージのI/Oが飽和している場合にも起きる可能性があります。

ストレージの節約は、不要な仮想マシンを消す、不要なバックアップを辞める、またはホストの全体的な負荷を平滑化するなどがありますが、本システムによるインシデント時の復旧作業や時間(RTO)が迅速であるメリットも捨てきれないと思います。ご利用の契約によって、ストレージの容量の増設も可能です。ストレージ(SSD)の増設が必要な場合は、お手数ですが当社サポート、または担当営業までご相談ください。


エラーの原因と対処

エラー文
Error: the job (XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX ) is already running
※()内には、お客さまごとに異なる文字列が入ります。
 原因
バックアップジョブがすでに実行されているため、新しいジョブがスキップされた場合に発生します。
ディスクの更新が多いなど、様々な要因で、バックアップに遅延しています。
一次対応者
お客様にて運営ポリシー変更の上、当社に連絡
 対処法
連続してメールでの通知が来ない場合、その回だけ、スキップされて、以後は正常終了したことを意味します。この場合は、特に気にすることはありません。
頻発する場合、ディスク更新量に対して、バックアップ単位が短すぎる時間になっている場合があります。この場合、バックアップ単位を1時間、2時間、3時間と、徐々に長くする必要があります。同時にRPOが長くなるため、障害時の復旧時の最大巻戻り時間が増えることを意味します。

設定変更が必要な場合は、当社サポート、または担当営業までご相談ください。
エラー文
Failure Error: SR_BACKEND_FAILURE_44(, There is insufficient space, )
 原因
ストレージ容量がいっぱいになっている。
一次対応者
お客様
 対処法

基本的には、データを削除Sい、空き容量を確保する必要があります。

  • 無駄なVMを削除する。
  • 不要なスナップショットを消す
    • 不要なスナップショットの削除については、こちらをご参照ください。
  • 不要な仮想マシンのバックアップをしないようにする。
    • バックアップ対象から除外する場合はこちらをご確認ください。
エラー文  
Failure Error: SR_BACKEND_FAILURE_109(, The snapshot chain is too long, )
 原因
対象の仮想マシンのスナップショット数が多い時に発生します。
スナップショットは、不可視の物も含め、1つの仮想マシンで30個までしか作成ができません。

実際のスナップショット削除後の結合処理は、しばらくしてから遅延して行われます。この間もこのエラーが発生することがあります。
 一次対応者
お客様
 対処法
スナップショット一覧から、不要なスナップショットを削除します。不要なスナップショットの削除については、こちらをご参照ください。
スナップショット削除後も、結合処理が完了するまで、暫く続く場合があります。
エラー文  
Skipped Reason: (unhealthy VDI chain) Job canceled to protect the VDI chain
 原因
対象の仮想マシンのスナップショットの結合処理が必須となっている時に発生します。結合処理は自動的に行われるため、暫く待つ必要があります。
スナップショットを削除した直後のジョブの時に発生することがあります。
 一次対応者
お客様
 対処法

必要とされるストレージ容量について>に記載の通り、Xenはスナップショット削除後に、遅延してディスクの結合処理が実行されます。スナップショットの削除ミスや途中停止がかかった事により、ディスクの結合状態が異常な場合にも発生します。基本的には、しばらく待つことで、Xenが自動的にディスクの結合処理を行うため、暫くすると解消します。

数日過ぎてもエラーが解消しない場合

稀に、内部的に何らかのエラーが発生し、結合処理ができないことがあります。

この状態になってしまった場合、復帰を最も簡単に行うには、仮想マシンをクローンし、元の仮想マシンを削除する必要があります。仮想マシンのクローンはこちらを参照してください。

クラウド型リモートVPNサービス xen-orchestra.html 採用情報 TeraCLOUD 清水エスパルス
Oracle GOLD Partner

ジャストプレイヤーはオラクル認定ゴールドパートナーです。
SPARCをはじめ、オラクル社の製品を用いたクラウド環境の構築、運用をサポートします。


JUSTPLAYER.NE.JP

https://justplayer.ne.jp/

info@justplayer.com

ジャストプレイヤー株式会社
JUSTPLAYER Co.,Ltd.
静岡県静岡市葵区上石町2-4 河村上石町ビル 1F
tel/050-3801-5987 fax/054-251-1757