在Atlas 800 训练服务器上跑训练任务卡住,驱动日志报错:int_process_hwts_sdma_timeout
问题现象描述
在Atlas 800 训练服务器上跑训练任务,训练任务卡住,执行如下命令收集驱动日志:
msnpureport -f
在日志中报错:int_process_hwts_sdma_timeout,如下图所示:

原因分析
NPU芯片处于AMP模式,而在Atlas 800 训练服务器环境中,HCCL不支持NPU芯片的AMP模式。
解决措施
将NPU工作模式切换到SMP后再跑训练任务。在iBMC下执行如下命令:
# 下电 ipmcset -d powerstate -v 2 # 查询NPU工作模式 ipmcget -d npuworkmode # 切换到SMP模式 ipmcset -d npuworkmode -v 1 # 上电 ipmcset -d powerstate -v 1
若不将NPU工作模式切换到SMP,想要继续使用NPU芯片,则需先复位NPU芯片或者重启节点。
# 复位芯片,id是设备ID,chip_id是芯片ID npu-smi set -t reset -i id -c chip_id # (可选)重启节点 reboot
父主题: 使用时出现的故障