昇腾社区首页
中文
注册

使用约束

  • 请保证Ascend DMI工具独立部署在各服务器产品中使用,若部署在共享目录中供多台服务器共同访问使用或在执行昇腾软件安装/升级/卸载时使用Ascend DMI工具,可能会导致功能执行失败或性能不符合预期等不可预测情况。
  • Ascend DMI工具不支持在同一个设备里同时开启多个进程来测试性能数据。建议在NPU空载、无业务的时候执行P2P压力测试,多进程测试时可能导致测试结果不准确或者失败等不可预测情况,例如CCAE或npu-exporter组件会调用DCMI接口监测环境状态,占用一定的通信链路带宽资源,导致结果存在误差;当CANN软件中性能分析工具在采集性能数据时,Ascend DMI工具不可使用。
  • 基于安全考虑,执行ascend-dmi前,请用户确认fuser、lscpu、hccn_tool、systemd-detect-virt、dmidecode、hostname、mv、cp、gzip等指令是安全可用的;建议提前在环境上安装fuser软件,以便Ascend DMI对NPU进程进行监测。
  • 在容器场景下使用码流测试、一键式组合诊断、一键式片上内存压测诊断、Aicore诊断、Aicore压测、片上内存高危地址压测、PRBS码流诊断、NPU环境恢复等功能执行命令失败,请参见容器场景执行AICORE命令失败,plog日志报错,驱动故障码为46
  • Ascend DMI工具不支持混插卡等非标形态产品,可能导致功能执行失败或性能不符合预期等不可预测情况。
  • 为了避免频繁输出日志影响测试结果,测试前确认Host和Device的日志级别设置为ERROR,确认及设置方法如下:
    1. 确认日志级别:
      • Host侧:通过执行echo $GLOBAL_LOG_LEVEL命令查询,如果查询结果为非法值或者空,表示日志级别为缺省级别ERROR,对应数值3。通过export ASCEND_GLOBAL_EVENT_ENABLE=0命令关闭plog EVENT日志。
      • Device侧:请参考msnpureport工具使用,查看全局日志级别、模块日志级别和是否开启Event日志。
    2. 如果日志级别不为ERROR,请参考《CANN 日志参考》中的“设置日志级别”章节,设置Host和Device侧的日志级别。

功能点约束

各测试项特定约束限制请见下表。

功能

约束

软硬件版本兼容性测试

  • 固件版本只有root属组的用户在执行软硬件版本兼容性测试的时候才可以查询。
  • 软硬件版本兼容性测试在Atlas 800 训练服务器(型号 9000)Atlas 800 训练服务器(型号 9010)Atlas 200/300/500 推理产品场景下,不支持查询其MCU版本。

带宽测试

  • d2d带宽测试结果通过数据读写总量/消耗时间获取。因为d2d带宽测试和实际训练或推理一样,存在缓存、预取等内在优化,由此计算得到的带宽结果有可能超过标称带宽。
  • Atlas 300I Duo 推理卡的测试数据流向为h2d和d2h方式时,受数据传输方式的影响,从芯片的带宽值相比于主芯片偏低,属于正常现象。
  • Atlas 200I SoC A1 核心板的测试数据流向为h2d和d2h方式时,由于架构的特殊性,测试结果是从CPU直接拷贝获取的,结果和其他产品形态不一致,属于正常现象。
  • Atlas 200T A2 Box16 异构子框在虚拟机场景下,执行两个8p之间的P2P测试时,因为数据传输通道的特殊性,带宽测试偏低属于正常现象。
  • 使用Atlas A3 训练系列产品Atlas A3 推理系列产品在物理机、容器、虚拟机场景下重启后首次测试,如出现带宽测试偏低属于正常现象。
  • 为确保带宽测试结果达到最佳,用户需在裸机上进行测试。带宽测试搬运数据时,受硬件资源复用性影响,比如在拷贝次数(-et)或传输数据大小(-s)较低的情况下,复用性会比较低,进而将可能导致带宽测试结果偏低。
  • 为确保带宽测试效果准确性,建议在训练或推理业务开局的时候执行本测试项,因为例如CCAE或npu-exporter组件会调用dcmi接口监测环境状态,会占用一定的带宽,导致带宽测试的结果存在误差。
  • 使用带宽测试、超节点P2P带宽测试时,由于双向任务流下发时间并非完全一致,故双向P2P带宽结果存在少量波动属于正常现象。
  • 由于NPU的工作模式会影响P2P带宽测试的计算方式,若出现P2P带宽测试结果与标称带宽相差过大,建议用户使用SMP模式。操作如下:用户登录IBMC,执行如下命令设置为SMP模式,其中1为SMP,0为AMP。

    ipmcset -d npuworkmode -v 1

  • 使用-s-et参数指定的数据搬运量和数据拷贝的次数较小时,可能无法获取最佳性能,如需稳定测得最佳性能,建议-s指定为512M,-et指定为>10。
  • 带宽测试建议在物理机上进行,容器、虚拟机上进行测试结果可能存在偏差。
  • 非root用户使用Atlas A3 训练系列产品Atlas A3 推理系列产品时,在驱动25.0.RC1及之前版本里不支持p2p模式的带宽测试。
  • 容器场景下,非root用户在Atlas A3 训练系列产品Atlas A3 推理系列产品下仅支持p2p、d2d模式的带宽测试。

超节点P2P带宽测试

  • 超节点P2P带宽测试功能仅支持root用户使用。
  • 为了保证测试的能正常执行,请勿在3个及以上的超节点同时执行测试,否则可能导致超节点P2P带宽测试失败。
  • 使用带宽测试、超节点P2P带宽测试时,由于双向任务流下发时间并非完全一致,故双向P2P带宽结果存在少量波动属于正常现象。
  • 使用超节点P2P带宽测试时,当前仅支持IPV4类型的IP地址。
  • 执行超节点P2P带宽测试的2个节点指定的-s、-et参数的数值大小必须相同。
  • 使用-s-et参数指定的数据搬运量和数据拷贝的次数较小时,可能无法获取最佳性能。如需稳定测得最佳性能,建议-s指定为512M,-et指定为>10。
  • 容器场景下建议使用共享目录方式。
  • 使用前应确保执行超节点P2P带宽测试的2个节点为同一NPU类型。以在Device A、Device B上进行超节点P2P带宽测试为例,即当Device A的NPU芯片为Atlas 900 A3 SuperPoD 超节点时,Device B的NPU也必须为Atlas 900 A3 SuperPoD 超节点

功耗测试

  • 功耗跟MCU强相关,使用前请将MCU升级至配套版本,否则可能会有aicore利用率未满100%、调压异常等问题。
  • 功耗数据是按周期采集,且前后两次采集之间存在时间间隔,因此小概率会出现未采集到实际功耗数据进而导致显示值偏低的情况。
  • 功耗测试有启动时间和退出时间,因此第一次和最后一次的回显信息会存在误差,属于正常现象。
  • 从运行成本考虑,功耗测试打印次数不一定与理论值相同。以功耗工具运行时间为60s,信息打印刷新的间隔为5s为例,理论上打印次数应为12次,实际次数会低于这个数值。
  • 因int8模式下使用的是整数运算,相比于fp16的浮点数运算,会减少一部分运算单元,因此最终呈现出的功耗值将偏低。同时,硬件设备会预设性能阈值,fp16模式下容易达到阈值并触发主动降频、电压调节等保护机制,因此硬件设备功耗不会长时间超过阈值,int8模式下功耗偏低,未达到阈值情况下,不同硬件设备的功耗可能会出现明显差异。
  • 由于Atlas A3 训练系列产品Atlas A3 推理系列产品是多芯片设备,功耗测试结果显示整卡功耗,不单独显示芯片功耗,且只有两张芯片功耗值都异常时才会报错。
  • Atlas 300I Duo 推理卡的功耗测试模块包括AICORE、AICPU算子执行、chipMemory算子执行、DVPP图像处理。压测DVPP模块,需要在/var/log/ascend_check(非root为~/var/log/ascend_check)路径下生成图像文件,此路径下需要提前预留至少1G的内存空间。

眼图测试

  • 在同一NPU内,若已配置CDR回环,请在解除回环后再执行眼图测试。详细说明请参见《Atlas A2 中心推理和训练硬件 25.0.RC1 HCCN Tool 接口参考》的“配置功能>配置和查询CDR相关信息”章节
  • 眼图测试使用Atlas A3 训练系列产品Atlas A3 推理系列产品时,在容器场景下仅支持root用户。
  • 在使用Atlas 900 A2 PoD 集群基础单元Atlas 900 A2 PoDc 集群基础单元Atlas 800T A2 训练服务器时,容器场景下不支持非root用户查询HCCS信号质量。
  • Atlas A3 训练系列产品Atlas A3 推理系列产品且CPU为鲲鹏920系列的设备上会诊断CPU侧的HCCS信号质量。仅支持物理机root用户场景。

码流测试(一键式打流、自定义打流)

  • 该操作为高危操作,可能会导致网口link down,需要单独执行。
  • 执行prbs打流流程会自动关闭NPU和CDR自适应,多次执行打流命令时会反复开关自适应,当自适应开关动作未完成时,偶现误码数为67092480为正常现象。
  • 若使用CDR环回打流,请在完成打流后解除CDR环回,详情请参见《Atlas A2 中心推理和训练硬件 25.0.RC1 HCCN Tool 接口参考》的“配置功能>配置和查询CDR相关信息”章节

眼图诊断

  • 使用Atlas A3 训练系列产品Atlas A3 推理系列产品Atlas 900 A2 PoD 集群基础单元Atlas 900 A2 PoDc 集群基础单元Atlas 800T A2 训练服务器A200I A2 Box 异构组件时,在容器场景下仅支持root用户。
  • Atlas A3 训练系列产品Atlas A3 推理系列产品且CPU为鲲鹏920系列的设备上会诊断CPU侧的HCCS信号质量。仅支持物理机root用户场景。

带宽诊断

  • Atlas 200T A2 Box16 异构子框在虚拟机场景下,由于数据传输通道的特殊性,BandWidth诊断将不执行两个8p之间的P2P测试。
  • 带宽诊断使用Atlas A3 训练系列产品Atlas A3 推理系列产品时,在容器场景下仅支持root用户。

NIC诊断

  • 使用NIC诊断前需要保证环境上所有device参数面网络已连通。

PRBS码流诊断

  • 执行prbs打流流程会自动关闭NPU和CDR自适应,多次执行打流命令时会反复开关自适应,当自适应开关动作未完成时,偶现误码数为67092480为正常现象。
  • 若使用CDR环回打流,请在完成打流后解除CDR环回,详情请参见《Atlas A2 中心推理和训练硬件 25.0.RC1 HCCN Tool 接口参考》的“配置功能>配置和查询CDR相关信息”章节

AICORE压测

  • aicore压测需要占用HOST服务器侧约20~40GB的内存,执行命令前请预留足够内存,防止进程异常中断。

AICORE诊断

  • aicore诊断完成后请检查环境aic和bus电压是否正常,若异常,请立即执行ascend-dmi -r命令恢复NPU环境。详细说明请参考NPU环境恢复

功耗压测

  • 为保证返回检测结果的正确性和准确性,功耗压测需要单独执行。
  • 功耗跟MCU强相关,使用前请将MCU升级至配套版本,否则可能会有aicore利用率未满100%、调压异常等问题。
  • 功耗压测不支持在设备所在环境存在问题的场景下运行,例如高温、散热有问题的环境,否则会出现硬件设备掉卡(掉卡即使用npu-smi info命令查询设备基本信息时,NPU不在位)、硬件设备故障等异常情况。
  • 功耗压测不能用于温度测试,即试图测试硬件设备在不同温度下的散热情况,否则会出现硬件设备掉卡(掉卡即使用npu-smi info命令查询设备基本信息时,NPU不在位)、硬件设备故障等异常情况。

一键式片上内存压测诊断

  • 压测过程中可能涉及芯片复位,需使用root用户执行压测,否则会导致复位失败。

P2P压测

  • 不建议在降P启动场景中使用此功能。
  • Atlas 800I A2 推理服务器(32GB PCIe款)不支持使用P2P压测。

NPU环境恢复

  • 使用Atlas A2 训练系列产品Atlas 800I A2 推理产品A200I A2 Box 异构组件产品仅支持在物理机、容器场景下执行。