ascend-dmi工具主要为Atlas产品的标卡、板卡及模组类产品提供带宽测试、算力测试、功耗测试等功能。工具的功能介绍如表1所示。本系统通过调用底层DCMI(设备控制管理接口)以及AscendCL(Ascend Computing Language,昇腾计算语言)相关接口完成相关检测功能,对于系统级别的信息查询通过调用系统提供的通用库来实现,用户使用工具时通过配置参数来实现不同的测试功能。
功能名称 |
功能介绍 |
是否影响NPU训练或推理 |
---|---|---|
查看帮助信息 |
查看ascend-dmi工具帮助信息。 |
否 |
查看版本信息 |
查看ascend-dmi工具版本信息。 |
否 |
带宽测试 |
测试总线带宽、内存带宽和时延。 |
是 |
超节点P2P带宽测试 |
超节点P2P带宽测试主要用于测试节点之间的网络传输速率和时延。 |
是 |
算力测试 |
测试整卡或芯片中AI Core的算力值和满算力下的实时功率。 |
是 |
功耗测试 |
检测整卡的功耗信息。 |
是 |
设备实时状态查询 |
检测设备在运行过程中的状态信息。 |
否 |
故障诊断 |
分别对软件类和硬件类进行诊断或压测,并输出诊断或压测结果,各检查类包含的项目如下: 故障诊断包含以下项目:
压测包含以下项目:
|
片上内存压测、aicore压测、aicore诊断、带宽诊断、算力诊断会影响NPU训练或推理作业,其他场景下不会影响NPU训练或推理作业。 |
眼图测试 |
查询当前信号质量。 |
否 |
码流测试 |
码流测试是通过对NPU芯片的RoCE网口收发PRBS码流,检查硬件链路的通信信号质量。 |
是 |
软硬件版本兼容性测试 |
获取硬件信息、架构、驱动版本、固件版本以及软件版本,并检测软硬件间的兼容性。 |
否 |
驱动固件版本兼容性测试 |
获取当前环境驱动版本和各个昇腾AI处理器的固件版本,并检测驱动固件版本间的兼容性诊断结果。 |
否 |