Veritas NetBackup for Hadoop 管理者ガイド
- 概要
- Hadoop プラグインの配備
- NetBackup for Hadoop の構成
- Hadoop のバックアップとリストアの実行
- トラブルシューティング
Hadoop データのバックアップ
Hadoop データは並列ストリームでバックアップされ、バックアップ時に Hadoop DataNodes はデータブロックを同時に複数のバックアップホストに対してストリームします。
メモ:
Hadoop バックアップ対象で指定されたすべてのディレクトリは、バックアップ前にスナップショット対応に設定しておく必要があります。
次の図は、バックアップフローの概要を示しています。
次の図に示されているようになります。
スケジュールされたバックアップジョブはマスターサーバーからトリガされます。
Hadoop データのバックアップジョブは複合ジョブです。バックアップジョブがトリガされると、最初に検出ジョブが実行されます。
検出中に、最初のバックアップホストは NameNode と接続し、検出を実行して、バックアップする必要があるデータの詳細を取得します。
作業負荷検出ファイルは、バックアップホストに作成されます。作業負荷検出ファイルには、さまざまな DataNodes からバックアップする必要があるデータの詳細が含まれています。
バックアップホストは作業負荷検出ファイルを使用し、作業負荷が複数のバックアップホスト間でどのように分散されるかを決定します。作業負荷分散ファイルは、バックアップホストごとに作成されます。
バックアップホストごとに個別の子ジョブが実行されます。作業負荷分散ファイルで指定されたデータがバックアップされます。
データブロックは、異なる DataNodes から複数のバックアップホストに同時にストリームします。
すべての子ジョブが完了するまで、複合バックアップジョブは完了しません。子ジョブが完了すると、NetBackup は NameNode からすべてのスナップショットをクリーンアップします。クリーンアップ活動が完了した後にのみ、複合バックアップジョブは完了します。
Hadoop クラスタのバックアップについてを参照してください。