障害発生のお知らせ(10月11日・復旧済) - JUSTPLAYERインターネットサービス

Top / お知らせ / 障害発生のお知らせ(10月11日・復旧済)

障害発生のお知らせ(10月11日・復旧済)

日頃より、ジャストプレイヤーのインターネット関連サービスをご利用いただきまして誠にありがとうございます。

下記のとおり、弊社クラウドサービスにおいて障害が発生しておりました。現在は復旧しております。

ご利用のお客様には、ご迷惑をおかけいたしましたことを深くお詫び申し上げます。

発生日時2018年10月11日(木)21:23頃 ~ 翌03:30 ※24時間表記
影響範囲クラウドサービスにおけるXenServer系のすべて、VMware系の一部、Solaris系の一部、および、メールサービス、JPWS
事象

弊社クラウドサービスが接続している一部のストレージサーバーにて、過負荷によると考えられる応答遅延が発生し、それに伴う障害が発生いたしました。ストレージサーバー自体のハードウェア破損・再起動などは起きておりませんが、過負荷により関連したシステムの遅延が連鎖的に発生いたしました。そのため、本来であれば、影響が出るべきではないシステム系にまで派生した大規模な障害が発生いたしました。

本障害は、9月4日に起きたストレージサーバのハードウェア障害に関連しています。この時に障害が発生した片系のハードウェア交換に時間を要しており、障害時時点で一部のサービスにおいては、片系動作から冗長へと修復が行われておりました。この修復が負荷にも影響し、いくつかのサービスへ波及したと考えております。

ご注意
  • ストレージシステムにおけるデータロストはございません。
  • インスタンス内のOS再起動が発生しております。お客様におかれましては、お手数ではございますが、ミドルウェア・アプリケーション等の、動作のご確認等をお願い申し上げます。
  • TeraCLOUDのノードサーバ(お客様データが保存されるサーバ)では障害は発生しておりません。
タイムライン10/11 21:23 一部サーバの障害を検知・順次対応を開始
10/11 22:00前後 システムの連鎖的ダウンの発生開始
10/11 23:00前後 一部サービスの復旧開始
10/11 23:30頃 システムの連鎖的ダウンの原因が判明。負荷軽減のための対応開始
10/12 01:30頃 負荷軽減のための対応終了
10/12 01:30頃 全サービスの復旧作業開始
10/12 03:30頃 全サービスの復旧完了

再発防止に関して

本システムは設計思想として、一貫性 (Consistency)を重視し、データロスが起きないよう最善を尽くして構築されておりますが、その代償として片系に比べ、二重化の同期書き込み時に応答レイテンシの低下などが発生します。

しかしながら今回、本来、影響を及ぼさないはずの部分において、一貫性よりも可用性 (Availability)を重視したレイテンシ重視のシステムがありました。

今後は、関係するベンダや、お客様との協議の上で、可用性重視系と一貫性重視系の分離を一層に進め、今回のような連鎖障害を起こさないよう最善を努めます。