Veritas InfoScale™ 8.0.2 トラブルシューティングガイド - Linux

Last Published:
Product(s): InfoScale & Storage Foundation (8.0.2)
Platform: Linux
  1. はじめに
    1.  
      Veritas Storage Foundation and High Availability Solutions 製品のトラブルシューティングについて
    2.  
      Veritas SORT (Services and Operations Readiness Tools) について
    3. 一意のメッセージ ID について
      1.  
        Veritas Operations Readiness Tools を使用した一意のメッセージ ID の説明と解決法の検索
    4. デバッグ用のアプリケーションおよびデーモンコアデータの収集について
      1.  
        vxgetcore でデバッグデータを自動的に見つけるようにする (最も簡単な方法)
      2.  
        コアファイルの場所がわかっている場合の vxgetcore の実行
      3.  
        vxgetcore で情報の入力を求めるメッセージを表示する
  2. 第 I 部 Veritas File System のトラブルシューティング
    1. 診断メッセージ
      1. 障害に対するファイルシステムの応答
        1.  
          無効にしたファイルシステムのリカバリ
      2.  
        カーネルメッセージについて
  3. 第 II 部 Veritas Volume Manager のトラブルシューティング
    1. ハードウェア障害からのリカバリ
      1.  
        ハードウェア障害からのリカバリについて
      2.  
        起動不能なボリュームの一覧表示
      3.  
        ボリュームとプレックスの状態の表示
      4.  
        プレックスの状態遷移
      5.  
        起動不能なミラーボリュームのリカバリ
      6.  
        RECOVER 状態の無効にされたプレックスが存在する起動不能なボリュームのリカバリ
      7.  
        起動不能なボリュームの強制的な再起動
      8.  
        ディスクでの failing フラグのクリア
      9.  
        障害が発生したディスクの再接続
      10.  
        失敗したプレックスの接続操作または同期操作のリカバリ
      11. RAID 5 ボリュームの障害
        1.  
          システム障害
        2.  
          ディスク障害
        3.  
          RAID 5 のデフォルトの起動リカバリプロセス
        4. RAID 5 ボリュームのリカバリ
          1.  
            RAID 5 ボリューム上のパリティの再同期
          2.  
            障害の発生した RAID 5 ログプレックスの再接続
          3.  
            RAID 5 ボリューム内の無効なサブディスクのリカバリ
        5.  
          RAID 5 サブディスクを移動した後のリカバリ
        6. 起動できない RAID 5 ボリューム
          1.  
            無効なサブディスクを持つ RAID 5 ボリュームの強制的な起動
      12.  
        ディスクグループの不完全な移動のリカバリ
      13.  
        クラスタ内の一部のノードが使用できない場合のリカバリ後のボリュームの再起動
      14. DCO ボリュームの障害からのリカバリ
        1.  
          バージョン 0 の DCO ボリュームのリカバリ
        2.  
          インスタントスナップ DCO ボリュームのリカバリ(バージョン 20 以降)
    2. インスタントスナップショット障害からのリカバリ
      1.  
        vxsnap prepare の障害からのリカバリ
      2.  
        フルサイズインスタントスナップショット作成時の vxsnap make の失敗からのリカバリ
      3.  
        ブレークオフインスタントスナップショット作成時の vxsnap make の失敗からのリカバリ
      4.  
        領域最適化インスタントスナップショット作成時の vxsnap make の失敗からのリカバリ
      5.  
        vxsnap restore の障害からのリカバリ
      6.  
        vxsnap refresh の障害からのリカバリ
      7.  
        コピーオンライトの失敗からのリカバリ
      8.  
        再同期中に発生する I/O エラーからのリカバリ
      9.  
        DCO ボリュームでの I/O エラーからのリカバリ
      10.  
        インスタントスナップのデータ変更オブジェクト(DCO)の vxsnap アップグレードの障害からのリカバリ
    3. 失敗した vxresize 操作のリカバリ
      1.  
        失敗した vxresize 縮小操作のリカバリ
    4. ブートディスク障害からのリカバリ
      1.  
        VxVM とブートディスク障害
      2.  
        可能なルートディスク設定
      3.  
        ブートプロセス
      4. VxVM ブートディスクのリカバリ
        1. ブートディスクで障害が発生した場合
          1.  
            切断した root ディスクの再接続
          2.  
            ルートディスクで障害が発生した場合
          3.  
            障害が発生したルートディスクの代わりにルートミラーディスクを使用
          4.  
            障害が発生したルートディスクの交換
        2.  
          障害が発生したブートディスクのミラーの交換
        3.  
          LILO コマンドで -R、fallback、または lock オプションを偶発的に使った場合
        4.  
          マスターブートレコードの紛失または破損のリストア
        5.  
          紛失したか破損した /etc/fstab ファイルのリストア
        6.  
          紛失したか破損した /etc/vx/volboot ファイルのリストア
      5. 再インストールによるリカバリ
        1.  
          一般的な再インストール情報
        2. システムの再インストールと VxVM のリカバリ
          1.  
            システムの再インストールの準備
          2.  
            オペレーティングシステムの再インストール
          3.  
            Veritas Volume Manager の再インストール
          4.  
            Veritas Volume Manager 設定のリカバリ
          5.  
            システム構成のクリーンアップ
      6.  
        手動によるルートディスクのカプセル化解除
    5. コマンド、タスク、トランザクションの管理
      1.  
        コマンドログ
      2.  
        タスクログ
      3.  
        トランザクションログ
      4.  
        コマンドログ、タスクログ、トランザクションログの関連付け
      5.  
        スレーブから発行された CVM コマンドのマスターノードへの関連付け
      6.  
        コマンド入力補完機能が有効になっていない
      7.  
        /etc/fstab にリストされている VxVM ボリュームがブート時に自動的にマウントされない場合がある
    6. ディスクグループ設定データのバックアップとリストア
      1.  
        ディスクグループ設定のバックアップの概要
      2.  
        ディスクグループ設定のバックアップ
      3. ディスクグループ設定のリストア
        1.  
          ディスクグループの競合バックアップの解決
      4.  
        FSS ディスクグループ設定データのバックアップと復元
    7. ディスクグループのインポートを使った問題のトラブルシューティング
      1.  
        非クローンディスクに対する udid_mismatch フラグの消去
    8. CDS エラーからの回復
      1.  
        CDS エラーコードと回復アクション
    9. ログおよびエラーメッセージ
      1.  
        エラーメッセージについて
      2. エラーメッセージの記録方法
        1.  
          起動スクリプトでのログの設定
      3. メッセージのタイプ
        1.  
          メッセージ
      4.  
        トラブルシューティング用のログ情報の収集
    10. Veritas Volume Replicator のトラブルシューティング
      1.  
        RLINK 接続問題のリカバリ
      2. 設定エラーのリカバリ
        1. RLINK 接続中のエラー
          1.  
            RLINK 接続中のデータボリュームエラー
          2.  
            RLINK 接続中のボリュームセットのエラー
        2. RVG 変更中のエラー
          1.  
            RVG 修正中に発生するデータボリューム紛失に関するエラー
          2.  
            RVG の変更中のデータボリューム不一致のエラー
          3.  
            RVG 修正中に発生するデータボリューム名の不一致に関するエラー
          4. RVG の変更中のボリュームセットの設定エラー
            1.  
              ボリュームセット名の不一致エラー
            2.  
              ボリュームインデックスの不一致エラー
            3.  
              コンポーネントボリュームの不一致エラー
      3. プライマリまたはセカンダリでのリカバリ
        1.  
          プライマリホストのクラッシュからのリカバリについて
        2. プライマリのデータボリュームエラーのリカバリ
          1.  
            例 - RLINK を切断した状態でのリカバリ
          2.  
            例 - 最小限の修復でのリカバリ
          3.  
            例 - プライマリの移行によるリカバリ
          4.  
            例 - 一時的な I/O エラーからのリカバリ
        3. プライマリ SRL ボリュームのエラーの解決と再起動
          1.  
            RVG の PASSTHRU モードについて
        4.  
          再起動時のプライマリ SRL ボリュームのエラー
        5.  
          プライマリ SRL ボリュームオーバーフローのリカバリ
        6. プライマリ SRL ヘッダーのエラーの解決とリカバリ
          1.  
            SRL ヘッダーエラーのリカバリ
        7. セカンダリのデータボリュームのエラーの解決とリカバリ
          1.  
            セカンダリストレージチェックポイントを使ったリカバリ
          2.  
            プライマリストレージチェックポイントを使ったクリーンアップ
        8.  
          セカンダリの SRL ボリュームのエラーの解決とリカバリ
        9.  
          セカンダリ SRL ヘッダーのエラー解決とリカバリ
        10.  
          再ブート時のセカンダリ SRL ヘッダーのエラー
  4. 第 III 部 Dynamic Multi-Pathing のトラブルシューティング
    1. Dynamic Multi-Pathing のトラブルシューティング
      1.  
        DMP からパスを除外または DMP にパスを追加するときのエラーのリカバリ
      2.  
        アレイサポートのダウングレード
  5. 第 IV 部 Storage Foundation Cluster File System High Availability のトラブルシューティングについて
    1. Storage Foundation Cluster File System High Availability のトラブルシューティングについて
      1.  
        Storage Foundation Cluster File System High Availability のトラブルシューティングについて
      2. CFS のトラブルシューティング
        1.  
          root ユーザーの <library> パスの順序が正しくない
        2.  
          CFS コマンドは root 以外のユーザーによって実行された場合にハングアップすることがある
      3. フェンシングが有効な設定のトラブルシューティング
        1.  
          既存のネットワーク分割(スプリットブレイン)の例
        2. 既存のネットワーク分割(スプリットブレイン)からのリカバリ
          1.  
            シナリオ I
          2.  
            シナリオ II
          3.  
            シナリオ III
      4. Veritas InfoScale 製品 クラスタの Cluster Volume Manager のトラブルシューティング
        1.  
          CVM グループが Veritas InfoScale 製品 クラスタへのノード追加後オンラインではない
        2.  
          共有ディスクグループを Veritas InfoScale 製品 クラスタにインポートできない
        3.  
          Veritas InfoScale 製品 クラスタで CVM を起動できない
        4.  
          すでに存在するキーの削除
        5.  
          CVMCluster が Veritas InfoScale 製品 クラスタでオンラインでも CVMVolDg がオンラインにならない
        6.  
          Veritas InfoScale 製品 クラスタに共有ディスクが表示されない
      5. 相互接続のトラブルシューティング
        1.  
          ケーブル切断後のホストとディスク間の通信の復元
        2.  
          再ブート後にネットワークインターフェースの名前が変化する
        3.  
          必須デバイスのエントリ例
  6. 第 V 部 Cluster Server のトラブルシューティング
    1. VCS のトラブルシューティングおよびリカバリ
      1. VCS メッセージログ
        1.  
          VCS エージェントのエントリポイントのログ統合
        2.  
          VCS リソースの予期しない動作をトラブルシューティングするための FFDC(First Failure Data Capture)の強化
        3.  
          GAB メッセージのログ
        4.  
          エージェントのデバッグログの有効化
        5.  
          IMF のデバッグログの有効化
        6.  
          VCS エンジンのデバッグログの有効化
        7.  
          デバッグログのタグの使用法について
        8. サポート分析用の VCS 情報の収集
          1.  
            CPU、メモリ、スワップの計測または予測された値の確認
        9.  
          サポート分析用に LLT と GAB の情報を収集する
        10.  
          サポート分析用の IMF 情報の収集
        11.  
          メッセージカタログ
      2. VCS エンジンのトラブルシューティング
        1.  
          HAD の診断
        2.  
          HAD が繰り返し再起動される
        3.  
          GAB が HAD を強制終了する原因となる DNS の設定上の問題
        4.  
          シーディングと I/O フェンシング
        5.  
          preonline IP チェック
      3. LLT(Low Latency Transport)のトラブルシューティング
        1.  
          LLT 起動スクリプトでエラーが表示される
        2.  
          LLT がクロスリンクの使用を検出する
        3.  
          LLT リンクの状態メッセージ
      4. GAB(Group Membership Services/Atomic Broadcast)のトラブルシューティング
        1.  
          ポート再開放の遅延
        2.  
          クライアントプロセスの障害が原因でノードがパニック状態になる
      5. VCS の起動に関するトラブルシューティング
        1.  
          「VCS: 10622 ローカルの設定がありません(VCS: 10622 local configuration missing)」と「VCS: 10623 ローカルの設定が無効です(VCS: 10623 local configuration invalid)」
        2.  
          「VCS:11032 登録が失敗しました。終了します。(registration failed. Exiting)」【前のセグメントに統合】
        3.  
          "クラスタのメンバーシップを待っています(Waiting for cluster membership)"
      6. systemd ユニットサービスファイルの問題のトラブルシューティング
        1.  
          ユニットサービスにエラーが発生し、対応するモジュールがロードされたままの場合、systemd はこのモジュールをアンロードできず、パッケージを削除できない
        2.  
          ユニットサービスがアクティブであり、対応するプロセスが systemd の外部で停止した場合、このサービスは systemctl start を使用して再開できない
        3.  
          ユニットサービスが停止するまで、または対応するサービスが開始するまでにデフォルトのタイムアウトよりも長い時間がかかる場合、Failed 状態に移行する
      7.  
        IMF(Intelligent Monitoring Framework)のトラブルシューティング
      8. サービスグループに関するトラブルシューティング
        1.  
          VCS はサービスグループを自動的に起動しない
        2.  
          システムが RUNNING 状態にならない
        3.  
          あるシステムでサービスグループがオンラインにならない
        4.  
          サービスグループが自動起動しない
        5.  
          サービスグループがフリーズしている
        6.  
          フェールオーバーサービスグループが、別のシステムでオンラインになっている
        7.  
          重大なリソース障害が発生した
        8.  
          サービスグループが自動無効化の状態になっている
        9.  
          リソースがオンラインまたはオフラインになるまでサービスグループが待機している
        10.  
          依存関係が満たされるまでサービスグループが待機している
        11.  
          サービスグループのプローブが完了していない
        12.  
          サービスグループが予想されたシステムにフェールオーバーしない
        13.  
          FailOverPolicy が BiggestAvailable に設定されているのに、サービスグループが BiggestAvailable システムにフェールオーバーしない
        14.  
          VCS で作成されるバックアップからの測定データベースの復元
        15.  
          測定データベースの初期化の失敗
      9. リソースに関するトラブルシューティング
        1.  
          サービスグループがフェールオーバーによってオンライン化された
        2.  
          サービスグループの状態遷移を待っている
        3.  
          子リソースがオンラインになるのを待っている
        4.  
          親リソースがオフラインになるのを待っている
        5.  
          リソースからの応答を待っている
        6. エージェントが動作していない
          1.  
            無効なエージェントの引数
        7.  
          ディスクグループが無効な場合でも、ディスクグループエージェントの monitor エントリポイントが ONLINE を返す
      10. I/O フェンシングのトラブルシューティング
        1.  
          他のノードが除外されている間、ノードはクラスタを参加させられない
        2.  
          SCSI TEST UNIT READY コマンドが失敗すると、vxfentsthdw ユーティリティが失敗する
        3.  
          SCSI-3 ディスクから手動で既存のキーを削除する
        4. システムパニックによって潜在的なデータ破損が防止される
          1.  
            各種のイベントシナリオにおける I/O フェンシングの動作
        5.  
          コーディネータディスクの I/O フェンシングキーのクラスタ ID がローカルクラスタの ID と一致しない
        6. フェンシングの起動時にすでに発生しているスプリットブレイン状態が報告される
          1.  
            すでに発生しているスプリットブレイン状態のクリア
        7.  
          登録済みのキーがコーディネータディスクから失われている
        8.  
          クラスタがオフラインになっているときに不具合のあるディスクの置換
        9.  
          rcp または scp コマンドが機能していないと vxfenswap ユーティリティが終了する
        10. CP サーバーのトラブルシューティング
          1.  
            CP サーバーサービスグループに関連する問題のトラブルシューティング
          2.  
            CP サーバーの接続の確認
        11. Veritas InfoScale 製品 クラスタノードでのサーバーベースのフェンシングのトラブルシューティング
          1.  
            サーバーベースのフェンシング用に設定された VCS ノードでのフェンシング起動時の問題
        12. コーディネーションポイントのオンライン移行中の問題
          1.  
            vxfenswap コマンド実行後の vxfen サービスグループのアクティビティ
      11. 通知に関するトラブルシューティング
        1.  
          SNMP による通知を設定しても、SNMP コンソールにトラップが表示されない
      12. グローバルクラスタのトラブルシューティングとリカバリ
        1.  
          災害宣言
        2.  
          失われたハートビートと照会の機構
        3. VCS のアラート
          1.  
            アラートのタイプ
          2.  
            アラートの管理
          3.  
            アラートに関連付けられたアクション
          4.  
            取り消しイベント
          5.  
            起動時の同時性違反
      13.  
        Steward プロセスのトラブルシューティング
      14. ライセンスに関するトラブルシューティング
        1.  
          ライセンスキーの検証
        2. ライセンスのエラーメッセージ
          1.  
            [Licensing] Insufficient memory to perform operation
          2.  
            [Licensing] No valid VCS license keys were found
          3.  
            [Licensing] Unable to find a valid base VCS license key
          4.  
            [Licensing] License key can not be used on this OS platform
          5.  
            [Licensing] VCS evaluation period has expired
          6.  
            [Licensing] License key can not be used on this system
          7.  
            [Licensing] Unable to initialize the licensing framework
          8.  
            [Licensing] QuickStart is not supported in this release
          9.  
            [Licensing] Your evaluation period for the feature has expired.This feature will not be enabled the next time VCS starts
      15.  
        CPU、メモリ、スワップの計測または予測された値の確認
  7. 第 VI 部 SFDB のトラブルシューティング
    1. SFDB のトラブルシューティング
      1.  
        Storage Foundation for Databases(SFDB)ツールのトラブルシューティングについて

IMF(Intelligent Monitoring Framework)のトラブルシューティング

Intelligent Monitoring Framework(IMF)に関する問題を切り分けてトラブルシューティングするには、次のログを確認します。

  • 特定のオペレーティングシステムのシステムコンソールログ

  • VCS エンジンログ: /var/VRTSvcs/log/engine_A.log

  • エージェント固有のログ: /var/VRTSvcs/log/<agentname>_A.log

  • AMF メモリ内トレースバッファ: 内容を表示するには amfconfig -p dbglog コマンドを使用します

IMF のデバッグログの有効化を参照してください。

サポート分析用の IMF 情報の収集を参照してください。

表: IMF 関連の問題と対処方法 ではインテリジェントリソース監視の一般的な問題を示し、問題のトラブルシューティングと修正の手順を説明します。

表: IMF 関連の問題と対処方法

問題

説明と対処方法

インテリジェントリソース監視でシステムの利用率が減らなかった

インテリジェントリソース監視を有効にしてもシステムがビジー状態である場合は、次のようにトラブルシューティングを行います。

  • エージェントログログファイルを調べて、imf_init エージェント関数が失敗しているかどうかを確認します。

    imf_init エージェント関数が失敗している場合は、次の手順を実行します。

    • AMF_START 環境変数の値が 1 に設定されていることを確認します。

      ???を参照してください。

    • AMF モジュールがロードされていることを確認します。

      ???を参照してください。

  • 次の属性キーで IMF 属性値が正しく設定されていることを確認します。

    • IMF 属性の Mode キーの値が 1、2、3 に設定されている必要があります。

    • IMF 属性の MonitorFreq キーの値が 0 以上の値に設定されている必要があります。

      たとえば、Process エージェントの MonitorFreq キーの値は 0 に設定できます。IMF 対応エージェントに対する推奨される設定については、該当するエージェントのマニュアルを参照してください。

      IMF 属性は上書きできることに注意してください。 そのため、各リソースに属性を設定する場合、各リソースの値を調べてください。

    ???を参照してください。

  • リソースが AMF のドライバに登録済みであることを確認します。 amfstat コマンド出力を調べます。

  • エージェントの LevelTwoMonitorFreq 属性の設定を調べます。 たとえば、Process エージェントのこの属性値は 0 に設定されている必要があります。

    IMF 対応エージェントに対する推奨される設定については、該当するエージェントのマニュアルを参照してください。

エージェントのインテリジェント監視を有効にしても、すぐにパフォーマンスに結果が現れない

インテリジェントなリソースの監視は、安定状態になった後に開始します。 そのため、IMF を有効にした後、パフォーマンスにプラスの効果が現れるまでには少し時間がかかります。 これは想定される動作です。

安定状態になる場合について詳しくは、次の項を参照してください。

???を参照してください。

IMF モードを 3 に設定してもエージェントがインテリジェント監視を実行しない

IMF 通知に AMF ドライバを使うエージェントの場合、インテリジェントリソース監視の効果が現れなければ、次の手順を実行します。

  • IMF 属性の Mode のキー値が 3 に設定されていることを確認します。

    ???を参照してください。

  • エージェントログを確認して、AMF への imf_init() エージェントの登録が成功していることを確認します。 エージェントの起動時にエージェントが AMF に登録するため、エージェントが起動する前に、AMF ドライバがロードされている必要があります。 ロードされていない場合、AMF モジュールを起動し、エージェントを再起動します。

    ???を参照してください。

IMF モードを 0 に変更しても AMF モジュールがアンロードに失敗する

Mode キーの値を 0 に変更しても、エージェントを強制終了するまで、エージェントは AMF ドライバを保持し続けます。 AMF モジュールをアンロードするには、AMF モジュールに対するすべての保持を解放する必要があります。

IMF モード値を 0 に変更した後に AMF モジュールがアンロードに失敗する場合は、次の手順を実行します。

  • amfconfig -Uof コマンドを実行します。 このコマンドはモジュールのすべての保持を強制的に除去し、設定解除します。

  • 次に、AMF をアンロードします。

    ???を参照してください。

エージェントの IMF を有効にしようとした場合、haimfconfig -enable -agent <agent_name> コマンドは、IMF がそのエージェントに対して有効になっていることを知らせるメッセージを戻します。 ただし、VCS とそれぞれのエージェントが実行中であると、haimfconfig -display コマンドは agent_name の状態を DISABLED として表示します。

考えられる一部の理由は次のとおりです。

  • エージェントは、IMF 対応となるにはいくつかの手動手順が必要になる場合があります。 これらの手動手順について詳しくは、エージェントのマニュアルを参照してください。

  • エージェントはカスタムエージェントであり、IMF 対応ではありません。 カスタムエージェントを IMF 対応にする方法について詳しくは、『Cluster Server エージェント開発者ガイド』を参照してください。

  • 前述の手順を実行しても問題が解決されない場合は、ベリタスのテクニカルサポートに問い合わせてください。