昇腾社区首页
中文
注册
开发者
下载

Atlas 800 训练服务器上跑训练任务卡住,驱动日志报错:int_process_hwts_sdma_timeout

问题现象描述

Atlas 800 训练服务器上跑训练任务,训练任务卡住,执行如下命令收集驱动日志:

msnpureport -f

在日志中报错:int_process_hwts_sdma_timeout,如下图所示:

原因分析

NPU芯片处于AMP模式,而在Atlas 800 训练服务器环境中,HCCL不支持NPU芯片的AMP模式。

解决措施

将NPU工作模式切换到SMP后再跑训练任务。在iBMC下执行如下命令:

# 下电
ipmcset -d powerstate -v 2
# 查询NPU工作模式
ipmcget -d npuworkmode
# 切换到SMP模式
ipmcset -d npuworkmode -v 1
# 上电
ipmcset -d powerstate -v 1

若不将NPU工作模式切换到SMP,想要继续使用NPU芯片,则需先复位NPU芯片或者重启节点。

# 复位芯片,id是设备ID,chip_id是芯片ID
npu-smi set -t reset -i id -c chip_id
# (可选)重启节点
reboot