仮想マシンのバックアップと復元
Top / サポート情報 / マニュアル / High Response Private Cloud / 仮想マシンのバックアップと復元 / バックアップが失敗した際の原因と対処法

バックアップが失敗した際の原因と対処法

このページでは、バックアップ(レプリケーション)が失敗した際の原因と対処法をご案内しています。

仮想マシンのバックアップが失敗、またはスキップされた際にXen Orchestraのサーバーから「Backup report」メールが届きます。この状態が起きた場合でも仮想マシンのサービスは継続されますが、万一、Xenのホストに障害が発生しストレージの救出ができなくなった場合、復元ポイントがなくなる恐れがあります。

バックアップの失敗は、おもに3つの原因により発生します。

  1. ローカルストレージの残り容量が足りないとき
  2. 仮想マシンのスナップショットが多いとき
  3. 仮想マシンの仮想ディスクサイズが大きくなりすぎた、更新分が多すぎたため、RPO=1時間(1時間に2度)のバックアップは間に合わなくなったとき

下記は、エラー文ごとの原因と対処法となります。

記載している以外のエラーがでたり、対処をしてもすぐに元に戻ってしまうなどユーザーにて問題が解決しない場合は、当社サポートまたは担当営業へご連絡ください。また、上記3の場合、バックアップ対象を絞る、RPO時間を延ばす(要問い合わせ)などという方法が根本的な対処となります。

Backup reportについて

送信元メールアドレスは「sysadmin@justplayer.com」、件名は「[Xen Orchestra] failure(or skipped) − Backup report for バックアップジョブ名」です。メール本文に、該当のバックアップジョブの情報と、エラー文が記載されていますのでご確認ください。

必要とされるストレージ容量について

Xenで必要とするストレージ容量は、現時点で利用しているストレージ容量だけでなく、仮想マシン内部のデータ更新差分にも影響します。そのため一概に「何ギガバイトあれば良い」と判断する事はできません。

これはXenのスナップショットがバッキングストアを要求するタイプのスナップショットシステムのためです。

スナップショットをとってから次のスナップショットまでの間、ストレージの更新量が多い(データベース、ログが多いシステムなど)と、その間の差分ディスクが増えます。スナップショットを消去するときには、差分ディスク同士の結合処理をしなくてはなりませんが、システムの不慮の停止を防ぐため、元のデータを残したまま結合処理をするため、一時的に大きなストレージの空き容量が必要になります。Xenではこの結合処理をスナップショットの削除直後ではなく、システムが自動的に行うため、若干遅れて作業されます。

ほとんどの問題は、スナップショットのバッキングストアのマージ処理にある2つの特性「空き容量が必要となること」「遅延して行われること」から起因しています。

SR_BACKEND_FAILURE_44は純粋にストレージ容量に起因するエラーが多々あります。ホストのローカルストレージの空き容量を常に一定以上保つ必要があります。

SR_BACKEND_FAILURE_109はマージ処理後の削除作業中、ストレージがたりない為に失敗するなど、全てが概ねディスクの残り容量と関連していることに注意が必要です。

ストレージの節約は、不要な仮想マシンを消す、不要なバックアップを辞める、またはホストの全体的な負荷を平滑化するなどがありますが、本システムによるインシデント時の復旧作業や時間(RTO)が迅速であるメリットも捨てきれないと思います。ご利用の契約によって、ストレージの容量の増設も可能です。ストレージ(SSD)の増設が必要な場合は、お手数ですが当社サポート、または担当営業までご相談ください。


エラーの原因と対処

エラー文
Error: the job (XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX ) is already running
※()内には、ユーザーごとに異なる文字列が入ります。
 原因
バックアップジョブがすでに実行されているため、新しいジョブがスキップされた場合に発生します。
ディスクの更新が多いなど、様々な要因で、バックアップに遅延しています。
一次対応者
ユーザーがRPOの運営ポリシー変更の上、当社に連絡
 対処法
バックアップするべきデータ量が多いため、その回だけスキップされたことを意味します。以後は正常終了すれば、特に気にすることはありません。
頻発する場合、ディスク更新量に対して、バックアップ単位が短すぎる時間になっている場合があります。この場合、バックアップ単位を1時間、2時間、3時間と、徐々に長くする必要があります。同時にRPOが長くなるため、障害時の復旧時の最大巻戻り時間が増えることを意味します。

この場合、設定変更が必要となるため、当社サポート、または担当営業までご相談ください。
エラー文
Failure Error: SR_BACKEND_FAILURE_44(, There is insufficient space, )
 原因
ストレージ容量がいっぱいになっている。
一次対応者
ユーザー
 対処法

基本的にはデータを削除し、空き容量を確保する必要があります。

  • 無駄なVMを削除する。
  • 不要なスナップショットを消す
    • 不要なスナップショットの削除については、こちらをご参照ください。
  • 不要な仮想マシンのバックアップをしないようにする。
    • バックアップ対象から除外する場合はこちらをご確認ください。
エラー文  
Failure Error: SR_BACKEND_FAILURE_109(, The snapshot chain is too long, )
 原因
対象の仮想マシンのスナップショット数が多い時に発生します。スナップショットは、不可視の物も含め、1つの仮想マシンで30個までしか作成ができません。また、スナップショット削除は時間がかかりますが、これらは遅延して行われます。この間でも同じエラーが出力する可能性があります。

Xen Orchestraの場合、レプリケーション処理はスナップショットを取得し、差分を転送する仕組みである為、仮想マシンの更新量に対してRPOが短すぎると、発生することがあります。これがいくつかの仮想マシンで発生する場合、RPOを長くする必要があります。
 一次対応者
ユーザー
 対処法
スナップショット一覧から不要なスナップショットを削除します。Xen Orchestraが自動的にバックアップ時に作成した無名のスナップショットが残っている場合もあります。不要なスナップショットの削除については、こちらをご参照ください。

この状態が起きた場合、仮想マシンの更新分に対してRPOが短すぎることが考えられるため、頻繁に発生する場合は、弊社サポート、もしくは担当営業までお問い合わせ下さい。
エラー文  
Skipped Reason: (unhealthy VDI chain) Job canceled to protect the VDI chain
 原因
対象の仮想マシンのスナップショットの結合処理が必須となっている時に発生します。結合処理は自動的に行われるため、暫く待つ必要があります。
スナップショットを削除した直後のジョブの時に発生することがあります。
 一次対応者
ユーザー
 対処法

必要とされるストレージ容量についてに記載の通り、Xenはスナップショット削除後に、遅延してディスクの結合処理が実行されます。スナップショットの削除ミスや途中停止がかかった事により、ディスクの結合状態が異常な場合にも発生します。基本的には、しばらく待つことで、Xenが自動的にディスクの結合処理を行うため、暫くすると解消します。

数日過ぎてもエラーが解消しない場合

稀に、内部的に何らかのエラーが発生し、結合処理ができないことがあります。

この状態になってしまった場合、復帰を最も簡単に行うには、仮想マシンをクローンし、元の仮想マシンを削除する必要があります。仮想マシンのクローンはこちらを参照してください。

エラー文  
could not find the base VM
 原因
仮想マシンの前回のバックアップ点が見つからない、ないしは正常ではない時に発生します。前回のバックアップとの差分をマージするようにバックアップを行うため、前回のバックアップが見つからないとバックアップが失敗します。
 一次対応者
ユーザー
 対処法
スナップショット一覧から、過去のバックアップ点である[XO Backup dp4-xenpool・・・]を削除します。このことにより、その仮想マシンのバックアップは差分同期ではなく、全同期を始めます。この結果、しばらくの間、Error: the job (XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX ) is already running が発生することがあります。

また、スナップショットが多いときにも発生する事があります。その場合、不要なスナップショットが必要になります。削除についてはこちらをご参照ください。

Private CloudPrivate Cloud
StorageStorage
NetworkNetwork