容器内HDC字符设备打开失败问题
适用场景
- 业务场景:容器场景
- 适用处理器:Atlas 200/300/500 推理产品、Atlas 推理系列产品、Atlas 训练系列产品
- 处理器形态:EP
现象描述
训练任务概率性失败,根据日志打印发现打开设备失败。
[drvHdcSetSessionReference 15333] <> Set reference open pcie device failed. (strerror=operation not permitted)
可能原因
根据日志信息,判断为hdc打开设备失败。可能原因:OS存在问题,概率性出现打开字符设备时设备权限和属组信息不正确。
处理步骤
确认OS是否支持连续打开字符设备,可以编写1个简单程序,连续打开系统字符设备dev/random,如出现问题请找OS定位。
父主题: 常见故障分析与处理