Veritas NetBackup™ 故障排除指南

Last Published:
Product(s): NetBackup (9.1)
  1. 介绍
    1.  
      NetBackup 日志记录和状态码信息
    2.  
      对问题进行故障排除
    3.  
      用于技术支持的问题报告
    4.  
      关于收集有关 NetBackup-Java 应用程序的信息
  2. 故障排除过程
    1.  
      关于故障排除过程
    2. 对 NetBackup 问题进行故障排除
      1.  
        在 UNIX 服务器上验证是否所有进程正在运行
      2.  
        在 Windows 服务器上验证是否所有进程正在运行
    3.  
      对安装问题进行故障排除
    4.  
      对配置问题进行故障排除
    5.  
      设备配置问题解决方法
    6.  
      测试主服务器和客户端
    7.  
      测试介质服务器和客户端
    8.  
      解决与 UNIX 客户端相关的网络通信问题
    9.  
      解决与 Windows 客户端相关的网络通信问题
    10. vnetd 代理连接故障排除
      1.  
        vnetd 代理连接要求
      2.  
        从何着手对 vnetd 代理连接进行故障排除
      3.  
        验证 vnetd 进程及其代理是否处于活动状态
      4.  
        验证主机连接是否已设置代理
      5.  
        测试 vnetd 代理连接
      6.  
        检查连接和接受进程的日志文件
      7.  
        查看 vnetd 代理日志文件
    11. 安全证书吊销故障排除
      1.  
        对云提供商的已吊销 SSL 证书问题进行故障排除
      2.  
        对云提供商的 CRL 下载问题进行故障排除
      3.  
        主机的 CRL 如何影响证书吊销故障排除
      4.  
        NetBackup 作业因证书已被吊销或 CRL 不可用而失败
      5.  
        NetBackup 作业由于明显的网络错误而失败
      6.  
        NetBackup 作业由于资源不可用而失败
      7.  
        主服务器安全证书已吊销
      8.  
        确定 NetBackup 主机的证书状态
      9.  
        外部 CA 签名证书吊销问题故障排除
    12.  
      关于网络和主机名故障排除
    13. 验证 NetBackup 中的主机名和服务条目
      1.  
        UNIX 主服务器和客户端上主机名和服务条目的示例
      2.  
        UNIX 主服务器和介质服务器上主机名和服务条目的示例
      3.  
        UNIX PC 客户端上主机名和服务条目的示例
      4.  
        连接到多个网络的 UNIX 服务器上主机名和服务条目的示例
    14.  
      关于 bpclntcmd 实用程序
    15.  
      使用“主机属性”窗口访问配置设置
    16.  
      解决磁盘已满的问题
    17. 冻结的介质故障排除注意事项
      1.  
        对冻结的介质进行故障排除时可参考的日志
      2.  
        关于导致介质冻结的情况
    18. 对 NetBackup Web 服务问题进行故障排除
      1.  
        查看 NetBackup Web 服务日志
      2.  
        配置外部 CA 后的 Web 服务问题故障排除
    19.  
      对 NetBackup Web 服务器证书问题进行故障排除
    20. 解决 PBX 问题
      1.  
        检查 PBX 安装
      2.  
        检查 PBX 是否正在运行
      3.  
        检查 PBX 是否已正确设置
      4.  
        访问 PBX 日志
      5.  
        对 PBX 安全性进行故障排除
      6.  
        确定 PBX 后台驻留程序或服务是否可用
    21. 远程主机验证问题故障排除
      1.  
        查看与主机验证相关的日志
      2.  
        启用与 NetBackup 8.0 和更低版本主机的不安全通信
      3.  
        批准待定的主机 ID-主机名映射
      4.  
        清除主机缓存
    22. 自动映像复制故障排除
      1.  
        与自动映像复制和 SLP 一起使用的主服务器的规则
      2. 使用外部证书配置时,目标 AIR 可信主服务器操作失败
        1.  
          添加或更新信任关系
        2.  
          删除信任关系
      3.  
        关于对 SLP 组件管理的自动导入作业进行故障排除
    23.  
      对网络接口卡性能进行故障排除
    24.  
      关于 bp.conf 文件中的 SERVER 条目
    25.  
      关于存储单元不可用的问题
    26.  
      解决 Windows 上的 NetBackup 管理操作失败
    27.  
      在 UNIX 计算机上解析 NetBackup 管理控制台中显示的乱码文本
    28.  
      对 NetBackup 管理控制台中的错误消息进行故障排除
    29.  
      “NetBackup 管理控制台”需要有额外的磁盘空间来存储日志和临时文件
    30.  
      在配置外部 CA 后,无法登录 NetBackup 管理控制台
    31.  
      基于文件的外部证书问题故障排除
    32.  
      Windows 证书存储库问题故障排除
    33.  
      备份失败故障排除
    34.  
      对 NAT 客户端或 NAT 服务器的备份失败问题进行故障排除
    35.  
      对 NetBackup Messaging Broker(或 nbmqbroker)服务问题进行故障排除
    36.  
      Windows 系统的电子邮件通知出现问题
    37.  
      KMS 配置问题
    38.  
      由于密钥较大而导致启动 NetBackup CA 迁移时出现的问题
    39.  
      非特权用户(服务用户)帐户的相关问题
    40.  
      auth.conf 文件中的组名称格式问题
  3. 使用 NetBackup 实用程序
    1.  
      关于 NetBackup 故障排除实用程序
    2.  
      关于 NetBackup 调试日志分析实用程序
    3.  
      关于日志记录助理
    4.  
      关于网络故障排除实用程序
    5. 关于 NetBackup 支持实用程序 (nbsu)
      1.  
        NetBackup 支持实用程序 (nbsu) 的输出
      2.  
        NetBackup 支持实用程序 (nbsu) 的进度显示示例
    6. 关于 NetBackup 一致性检查实用程序 (NBCC)
      1.  
        NetBackup 一致性检查实用程序 (NBCC) 的输出
      2.  
        NBCC 进度显示的示例
    7.  
      关于 NetBackup 一致性检查修复 (NBCC) 实用程序
    8.  
      关于 nbcplogs 实用程序
    9. 关于机械手测试实用程序
      1.  
        在 UNIX 环境下进行机械手测试
      2.  
        在 Windows 环境下进行机械手测试
    10. 关于 NetBackup 智能诊断 (nbsmartdiag) 实用程序
      1.  
        使用 nbsmartdiag 实用程序进行 NetBackup 主机通信的工作流程
  4. 灾难恢复
    1.  
      关于灾难恢复
    2.  
      关于灾难恢复要求
    3.  
      灾难恢复软件包
    4.  
      关于灾难恢复设置
    5.  
      推荐的备份方法
    6. 关于适用于 UNIX 和 Linux 的磁盘恢复过程
      1. 关于恢复 UNIX 和 Linux 的主服务器磁盘
        1.  
          在根文件系统完好无损的情况下恢复主服务器
        2.  
          在根分区丢失的情况下恢复主服务器
      2.  
        关于恢复 UNIX 的 NetBackup 介质服务器磁盘
      3.  
        在 UNIX 客户端工作站上恢复系统磁盘
    7. 关于 UNIX 和 Linux 上的群集 NetBackup 服务器恢复
      1.  
        替换 UNIX 或 Linux 群集上的故障节点
      2.  
        恢复整个 UNIX 或 Linux 群集
    8. 关于适用于 Windows 的磁盘恢复过程
      1. 关于恢复 Windows 的主服务器磁盘
        1.  
          在 Windows 完好无损的情况下恢复主服务器
        2.  
          恢复主服务器和 Windows
      2.  
        关于恢复 Windows 的 NetBackup 介质服务器磁盘
      3.  
        恢复 Windows 客户端磁盘
    9. 关于 Windows 上的群集 NetBackup 服务器恢复
      1.  
        替换 Windows VCS 群集上的故障节点
      2.  
        恢复 Windows VCS 群集上的共享磁盘
      3.  
        恢复整个 Windows VCS 群集
    10.  
      灾难恢复安装后在群集主服务器上生成证书
    11.  
      关于还原灾难恢复软件包
    12.  
      关于 DR_PKG_MARKER_FILE 环境变量
    13.  
      在 Windows 上还原灾难恢复软件包
    14.  
      在 UNIX 上还原灾难恢复软件包
    15. 关于恢复 NetBackup 目录库
      1.  
        关于在 Windows 计算机上执行 NetBackup 目录库恢复
      2.  
        关于从磁盘设备执行 NetBackup 目录库恢复
      3.  
        关于 NetBackup 目录库恢复和符号链接
      4. 关于 NetBackup 目录库恢复和 OpsCenter
        1.  
          在目录库恢复之后指定 NetBackup 作业 ID 编号
      5.  
        NetBackup 灾难恢复电子邮件示例
      6. 关于恢复整个 NetBackup 目录库
        1.  
          使用目录库恢复向导恢复整个 NetBackup 目录库
        2.  
          使用 bprecover -wizard 恢复整个 NetBackup 目录库
      7.  
        在目录库恢复之前建立与 NAT 介质服务器的连接
      8. 关于恢复 NetBackup 目录库映像文件
        1.  
          使用目录库恢复向导恢复 NetBackup 目录库映像文件
        2.  
          使用 bprecover -wizard 恢复 NetBackup 目录库映像文件
      9. 关于恢复 NetBackup 关系数据库
        1.  
          从备份恢复 NetBackup 关系数据库文件
        2.  
          从分段作业恢复 NetBackup 关系数据库文件
        3.  
          关于在分段作业中处理关系数据库
      10.  
        在配置 NetBackup Access Control 时恢复 NetBackup 目录库
      11.  
        从目录库备份的非主副本恢复 NetBackup 目录库
      12.  
        不使用灾难恢复文件恢复 NetBackup 目录库
      13.  
        从命令行恢复 NetBackup 用户控制的联机目录库备份
      14.  
        从 NetBackup 联机目录库备份还原文件
      15.  
        取消冻结 NetBackup 联机目录库恢复介质
      16.  
        在目录库恢复期间出现退出状态 5988 时要执行的步骤
  5.  
    索引

自动映像复制故障排除

自动映像复制将在一个 NetBackup 域中生成的备份复制到一个或多个 NetBackup 域中的另一台介质服务器。

注意:

尽管自动映像复制支持跨不同主服务器域进行复制,但 Replication Director 不支持此功能。

自动映像复制的运行方式与任何复制作业类似,但其作业不包含写入端。作业必须占用源映像所在磁盘卷中的读取资源。如果没有可用的介质服务器,作业将失败,状态为 800。

自动映像复制作业在磁盘卷级别运行。在源副本的存储生命周期策略中所指定的存储单元内,某些磁盘卷可能不支持复制操作。可使用“NetBackup 管理控制台”中的“磁盘池”界面来验证映像所在的磁盘卷是否支持复制操作。如果该界面显示磁盘卷不是复制源,请单击“更新磁盘卷”“刷新”更新磁盘池中的磁盘卷。如果问题仍然存在,请检查您的磁盘设备配置。

对自动复制作业所执行的操作视下表中所示情况而定。

操作

情况

AIR 复制作业尚未启动

验证下列各项:

  • SLP 处于活动状态。

  • nbstserv 后台驻留程序正在运行。

  • 该映像未超出扩展重试计数。

AIR 复制作业已排队,但尚未启动

没有可用的介质服务器或 I/O 流。

AIR 复制作业失败,例如,状态为 191

检查作业详细信息以获取有关故障的更多信息。

有关更多详细信息,请查看处理复制作业的介质服务器上的 bpdm 日志。

以下过程基于在某个 OpenStorage 配置中运行的 NetBackup。此配置会与使用自动映像复制的介质服务器重复数据删除池 (MSDP) 进行通信。

对自动映像复制作业进行故障排除

  1. 使用以下命令显示存储服务器信息:
    # bpstsinfo -lsuinfo -stype PureDisk -storage_server 
    storage_server_name

    输出示例:

    LSU Info:
    Server Name: PureDisk:ss1.acme.com
    LSU Name: PureDiskVolume
    Allocation : STS_LSU_AT_STATIC
    Storage: STS_LSU_ST_NONE
    Description: PureDisk storage unit (/ss1.acme.com#1/2)
    Configuration: 
    Media: (STS_LSUF_DISK | STS_LSUF_ACTIVE | STS_LSUF_STORAGE_NOT_FREED 
       | STS_LSUF_REP_ENABLED | STS_LSUF_REP_SOURCE)
    Save As : (STS_SA_CLEARF | STS_SA_OPAQUEF | STS_SA_IMAGE)
    Replication Sources: 0 ( )
    Replication Targets: 1 ( PureDisk:bayside:PureDiskVolume )
    ...

    此输出显示了 PureDiskVolume 的逻辑存储单元 (LSU) 标志 STS_LSUF_REP_ENABLED 和 STS_LSUF_REP_SOURCE。PureDiskVolume 是复制源,并且已针对自动映像复制启用。

  2. 要验证 NetBackup 是否能够识别这两个标志,请运行以下命令:
    # nbdevconfig -previewdv -stype PureDisk -storage_server 
    storage_server_name -media_server media_server_name -U
    Disk Pool Name      : 
    Disk Type           : PureDisk
    Disk Volume Name    : PureDiskVolume
    ...
    Flag                : ReplicationSource
    ...

    ReplicationSource 标志表明 NetBackup 能够识别这两个 LSU 标志。

  3. 要通过使用原始输出显示复制目标,请运行以下命令:
    # nbdevconfig -previewdv -stype PureDisk -storage_server 
    storage_server_name -media_server media_server_name
    
    V_5_ DiskVolume < "PureDiskVolume" "PureDiskVolume" 46068048064 
       46058373120 0 0 0 16 1 >
    V_5_ ReplicationTarget < "bayside:PureDiskVolume" >

    显示内容表明复制目标是名为 bayside 的一台存储服务器,且 LSU(卷)名称为 PureDiskVolume

  4. 要确认 NetBackup 是否正确地捕获了此配置,请运行以下命令:
    # nbdevquery -listdv -stype PureDisk -U
    Disk Pool Name      : PDpool
    Disk Type           : PureDisk
    Disk Volume Name    : PureDiskVolume
    ...
    Flag                : AdminUp
    Flag                : InternalUp
    Flag                : ReplicationSource
    Num Read Mounts     : 0
    ...

    此列表说明已在磁盘池 PDPool 中配置了磁盘卷 PureDiskVolume,且 NetBackup 能够识别源端中的复制功能。目标端中类似的 nbdevquery 命令应为其磁盘卷显示 ReplicationTarget

  5. 如果 NetBackup 不能识别复制功能,请运行以下命令:
    # nbdevconfig -updatedv -stype PureDisk -dp PDpool
  6. 要确认是否有使用此磁盘池的存储单元,请运行以下命令:
    # bpstulist 
    PDstu 0 _STU_NO_DEV_HOST_ 0 -1 -1 1 0 "*NULL*" 
       1 1 51200 *NULL* 2 6 0 0 0 0 PDpool *NULL*

    输出表明存储单元 PDstu 使用磁盘池 PDpool

  7. 运行以下命令,检查该磁盘池的设置:
    nbdevquery -listdp -stype PureDisk -dp PDpool -U
    Disk Pool Name   : PDpool
    Disk Pool Id     : PDpool
    Disk Type        : PureDisk
    Status           : UP
    Flag             : Patchwork
    ...
    Flag             : OptimizedImage
    Flag             : ReplicationTarget
    Raw Size (GB)    : 42.88
    Usable Size (GB) : 42.88
    Num Volumes      : 1
    High Watermark   : 98
    Low Watermark    : 80
    Max IO Streams   : -1
    Comment          : 
    Storage Server   : ss1.acme.com (UP)

    Max IO Streams 设置为 -1,这表示该磁盘池的输入-输出流不受限制。

  8. 要查看有权访问存储服务器及其磁盘池的介质服务器列表,请运行以下命令:
    # tpconfig -dsh -all_hosts
    ==============================================================
    Media Server:                   ss1.acme.com
    Storage Server:                 ss1.acme.com
    User Id:                        root
        Storage Server Type:        BasicDisk
        Storage Server Type:        SnapVault
        Storage Server Type:        PureDisk
    ==============================================================

    该磁盘池只有一个介质服务器,即 ss1.acme.com。您已完成存储配置的验证过程。

  9. 验证过程的最后一个阶段是存储生命周期策略配置。要运行自动映像复制,源副本必须位于存储单元 PDstu 上。运行以下命令(例如):
    nbstl woodridge2bayside -L
                                    Name: woodridge2bayside
                     Data Classification: (none specified)
                Duplication job priority: 0
                                   State: active
                                 Version: 0
     Destination  1              Use for: backup
                                 Storage: PDstu
                             Volume Pool: (none specified)
                            Server Group: (none specified)
                          Retention Type: Fixed
                         Retention Level: 1 (2 weeks)
                   Alternate Read Server: (none specified)
                   Preserve Multiplexing: false
          Enable Automatic Remote Import: true
                                   State: active
                                  Source: (client)
                          Destination ID: 0
     Destination  2              Use for: 3 (replication to remote master)
                                 Storage: Remote Master
                             Volume Pool: (none specified)
                            Server Group: (none specified)
                                     ...
                   Preserve Multiplexing: false
          Enable Automatic Remote Import: false
                                   State: active
                                  Source: Destination 1 (backup:PDstu)
                          Destination ID: 0

    要对自动映像复制作业流进行故障排除,使用的命令行应与用于其他存储生命周期策略所管理作业的命令行相同。例如,要列出已复制到远程主服务器的映像,请运行以下命令:

    nbstlutil list -copy_type replica -U -copy_state 3

    要列出尚未复制到远程主服务器的映像(无论是暂停还是失败),请运行以下命令:

    nbstlutil list -copy_type replica -U -copy_incomplete
  10. 要显示已完成复制副本的状态,请运行以下命令:
    nbstlutil repllist -U
    Image:
     Master Server            : ss1.acme.com
     Backup ID                : woodridge_1287610477
     Client                   : woodridge
     Backup Time              : 1287610477 (Wed Oct 20 16:34:37 2010)
     Policy                   : two-hop-with-dup
     Client Type              : 0
     Schedule Type            : 0
     Storage Lifecycle Policy : woodridge2bayside2pearl_withdup
     Storage Lifecycle State  : 3 (COMPLETE) 
     Time In Process          : 1287610545 (Wed Oct 20 16:35:45 2010)
     Data Classification ID   : (none specified)
     Version Number           : 0
     OriginMasterServer       : (none specified)
     OriginMasterServerID     : 00000000-0000-0000-0000-000000000000
     Import From Replica Time : 0 (Wed Dec 31 18:00:00 1969)
     Required Expiration Date : 0 (Wed Dec 31 18:00:00 1969)
     Created Date Time        : 1287610496 (Wed Oct 20 16:34:56 2010)
    
     Copy:
       Master Server       : ss1.acme.com
       Backup ID           : woodridge_1287610477
       Copy Number         : 102
       Copy Type           : 3
       Expire Time         : 1290288877 (Sat Nov 20 15:34:37 2010)
       Expire LC Time      : 1290288877 (Sat Nov 20 15:34:37 2010)
       Try To Keep Time    : 1290288877 (Sat Nov 20 15:34:37 2010)
       Residence           : Remote Master
       Copy State          : 3 (COMPLETE) 
       Job ID              : 25
       Retention Type      : 0 (FIXED) 
       MPX State           : 0 (FALSE)
       Source              : 1
       Destination ID      : 
       Last Retry Time     : 1287610614
    
     Replication Destination:
       Source Master Server: ss1.acme.com
       Backup ID           : woodridge_1287610477
       Copy Number         : 102
       Target Machine      : bayside
       Target Info         : PureDiskVolume
       Remote Master       : (none specified)