昇腾社区首页
中文
注册

容器内HDC字符设备打开失败问题

适用场景

  • 业务场景:容器场景
  • 适用处理器:Atlas 200/300/500 推理产品Atlas 推理系列产品Atlas 训练系列产品
  • 处理器形态:EP

现象描述

训练任务概率性失败,根据日志打印发现打开设备失败。

[drvHdcSetSessionReference 15333] <> Set reference open pcie device failed. (strerror=operation not permitted)

可能原因

根据日志信息,判断为hdc打开设备失败。可能原因:OS存在问题,概率性出现打开字符设备时设备权限和属组信息不正确。

处理步骤

确认OS是否支持连续打开字符设备,可以编写1个简单程序,连续打开系统字符设备dev/random,如出现问题请找OS定位。