CANN与驱动的兼容性诊断

测试项功能

对CANN与驱动的兼容性进行诊断,并输出诊断结果。

表1 诊断项说明

诊断项名称

使用Atlas A2 训练系列产品完成一轮诊断的参考耗时

使用Atlas 900 A3 SuperPoD 集群算力系统完成一轮诊断的参考耗时

是否影响NPU训练或推理

使用场景

CANN与驱动的兼容性

2s~7s

≤1min

训练或推理业务上线。

支持的场景

CANN与驱动的兼容性诊断支持的设备及场景如表2所示。(在下表中,Y表示支持,N表示不支持。)

表2 支持的场景和产品型号

场景/产品型号

Atlas 训练系列产品

Atlas A2 训练系列产品

Atlas 200/300/500 推理产品

Atlas 推理系列产品

Atlas 200I/500 A2 推理产品

Atlas 800I A2 推理产品

Atlas A3 训练系列产品

物理机

Y

Y

Y

6

Y

Y

Y

宿主机+容器

Y

Y

4

6

N

Y

Y

虚拟机

1

2

5

3

N

N

N

  1. Atlas 800 训练服务器(型号 9000)Atlas 900 PoD(型号 9000)Atlas 900T PoD Lite产品支持。
  2. Atlas 200T A2 Box16 异构子框支持。
  3. Atlas 300I Pro 推理卡Atlas 300I Duo 推理卡Atlas 300V Pro 视频解析卡Atlas 300V 视频解析卡支持。
  4. Atlas 200 AI加速模块(EP场景)Atlas 300I 推理卡(型号 3000)Atlas 300I 推理卡(型号 3010)Atlas 500 Pro 智能边缘服务器(型号 3000)支持。
  5. Atlas 300I 推理卡(型号 3000)Atlas 300I 推理卡(型号 3010)Atlas 500 Pro 智能边缘服务器(型号 3000)支持。
  6. Atlas 300I Pro 推理卡Atlas 300I Duo 推理卡Atlas 300V Pro 视频解析卡Atlas 300V 视频解析卡Atlas 200I SoC A1 核心板支持。

测试项参数查询

各参数解释如表3所示。

表3 参数说明

参数

说明

是否必填

[-dg, --dg, --diagnosis]

使用该参数进行整卡的故障诊断测试。

[-i, --items]

指定具体的诊断检查项:

  • 指定CANN与驱动的兼容性诊断,取值为cann。
  • 可指定driver、cann、device、network、bandwidth、aiflops、hbm、signalQuality中的一项或多项,多项时各项之间使用“,”分隔。
  • 不传入此参数,则默认执行除aicore和prbs外其他检查项的诊断。

[-p, --path]

指定为CANN的安装路径。

  • 若用户安装软件包时未使用默认安装路径,则此参数必填,指定为实际安装路径。
  • 指定路径需符合安全要求,且不支持包含通配符“*”。
  • 若不填写,且为root用户安装软件包时,则取值为默认路径“/usr/local/Ascend”
  • 当[-i, --items]后检查项不包含cann时,用户请勿填写此参数。

[-r, --result]

指定故障诊断结果和信息采集结果的保存路径,如:/test。指定的路径需符合安全要求,且不支持包含通配符“*”。

  • 若用户指定结果保存路径,则在指定路径创建ascend_check文件夹,root用户指定的路径,将创建在根目录下,非root用户则创建在其$HOME下;若不指定路径,则保存在默认路径下,root用户:“/var/log/ascend_check”,非root用户:“$HOME/var/log/ascend_check”。
  • 基于安全考虑,为防止结果保存目录权限被修改,用户可将结果保存目录ascend_check的权限设置为700。
  • 当[-fmt, --fmt, --format]后检查项指定json格式输出时,会进行故障诊断结果保存,结果保存在“ascend_check/environment_check_before.txt”文件中,不指定json格式输出时,不保存故障诊断结果。

[-fmt, --fmt, --format]

指定输出格式,可以为normal或json。若未指定则默认为normal。

注:

ascend-dmi --dg后使用-i,-r等多个二级参数时,可任意指定这些参数的排列顺序,不影响命令结果输出。

使用实例

ascend-dmi -dg -i cann  -p /usr/local/Ascend

故障检查项说明

表4 故障检查项说明

回显状态

含义

PASS

cann软件检测正常

FAIL

  • nnae、nnrt、toolkit均安装异常。
  • 驱动安装异常(cann和驱动间的兼容性不满足要求)。