简介

ascend-dmi工具主要为Atlas产品的标卡、板卡及模组类产品提供带宽测试、算力测试、功耗测试等功能。工具的功能介绍如表1所示。本系统通过调用底层DCMI(设备控制管理接口)以及AscendCL(Ascend Computing Language,昇腾计算语言)相关接口完成相关检测功能,对于系统级别的信息查询通过调用系统提供的通用库来实现,用户使用工具时通过配置参数来实现不同的测试功能。

表1 工具功能介绍

功能名称

功能介绍

是否影响NPU训练或推理

查看帮助信息

查看ascend-dmi工具帮助信息。

查看版本信息

查看ascend-dmi工具版本信息。

带宽测试

测试总线带宽、内存带宽和时延。

超节点P2P带宽测试

超节点P2P带宽测试主要用于测试节点之间的网络传输速率和时延。

算力测试

测试整卡或芯片中AI Core的算力值和满算力下的实时功率。

功耗测试

检测整卡的功耗信息。

设备实时状态查询

检测设备在运行过程中的状态信息。

故障诊断

分别对软件类和硬件类进行诊断或压测,并输出诊断或压测结果,各检查类包含的项目如下:

故障诊断包含以下项目:

  • 软件类:driver兼容性和驱动健康诊断,CANN各层软件的兼容性,CANN与驱动的兼容性。
  • 硬件类:device,network,bandwidth,aiflops、片上内存、signalQuality、aicore。

压测包含以下项目:

  • 硬件类:片上内存、aicore。

片上内存压测、aicore压测、aicore诊断、带宽诊断、算力诊断会影响NPU训练或推理作业,其他场景下不会影响NPU训练或推理作业。

眼图测试

查询当前信号质量。

码流测试

码流测试是通过对NPU芯片的RoCE网口收发PRBS码流,检查硬件链路的通信信号质量。

软硬件版本兼容性测试

获取硬件信息、架构、驱动版本、固件版本以及软件版本,并检测软硬件间的兼容性。

驱动固件版本兼容性测试

获取当前环境驱动版本和各个昇腾AI处理器的固件版本,并检测驱动固件版本间的兼容性诊断结果。

  • 上述功能在使用过程中如果报错,在对应日志中会产生错误码,错误码查询链接如下:aclErrorDCMI API返回码
  • 上述功能在使用过程中,建议用户在进程完成后再执行下一步操作,不建议在执行过程中终止进程。