容器异常退出无法运行
现象描述
在FusionDirector上部署容器应用成功后,容器异常退出无法运行。
可能原因
- 容器配置错误,如缺少依赖的环境变量缺少相应权限、NPU资源申请失败等。
- 镜像文件与系统架构不匹配。
- 容器内应用程序异常。
处理步骤
- 在FusionDirector界面上方单击“菜单”,在 中,根据设备类型选择“服务器”或“边缘设备”,在设备列表中单击“设备的名称”或“服务器的BMC IP”,进入该设备的详细页面,选择“容器应用”页签,查看容器运行状态的异常信息中是否有错误信息。
- 如果是,请根据错误信息修复对应问题,再重新部署容器应用,查看容器是否能成功运行。
- 如果是,问题解决。
- 如果不是,请继续执行该步骤,直到容器运行成功或错误信息无法定位异常原因。
- 如果不是,或错误信息无法定位异常原因,请执行2。
- 如果是,请根据错误信息修复对应问题,再重新部署容器应用,查看容器是否能成功运行。
- 在FusionDirector界面上方单击“菜单”,在 中,根据设备类型选择“服务器”或“边缘设备”,在设备列表中单击“设备的名称”或“服务器的BMC IP”,进入该设备的详细页面,选择“当前告警”页签,查看是否有NPU申请失败异常告警。
- 如果是,登录设备CLI界面,执行docker inspect $(docker ps -q) | grep Devices -n3命令查看容器挂载的“Devices”信息,检查申请使用的NPU资源,即“Devices”信息非空的容器数量是否超过NPU数量。如果超过,请合理分配NPU资源,确认并删除非必要使用NPU的容器,再重新部署容器应用。
- 如果不是,请执行3。
- 登录设备CLI界面,执行docker ps -a命令查看运行异常的容器ID,再使用docker logs {containerID}命令,查看运行异常的容器是否打印“exec format error”错误日志。
- 如果是,说明镜像文件与系统架构不匹配,请使用设备对应系统架构的镜像文件重新部署容器应用。
- 如果不是,请执行4。
- 登录设备CLI界面,执行docker ps -a命令查看运行异常的容器ID,再使用docker logs {containerID}命令,查看运行异常的容器是否有运行错误信息打印。
- 如果是,请根据容器运行异常错误信息修复对应问题,再重新部署容器应用,查看容器是否能成功运行。
- 如果是,问题解决。
- 如果不是,请继续执行该步骤,直到容器运行成功或无运行错误信息打印。
- 如果不是,请执行5。
- 如果是,请根据容器运行异常错误信息修复对应问题,再重新部署容器应用,查看容器是否能成功运行。
- 收集容器内业务应用程序产生的日志文件,查看是否有运行错误信息。
- 如果是,请根据容器应用程序日志错误信息修复对应问题,再重新部署容器应用,查看容器是否能成功运行。
- 如果是,问题解决。
- 如果不是,请继续执行该步骤,直到容器运行成功或无运行错误信息打印。
- 如果不是,请联系维护人员定位。
- 如果是,请根据容器应用程序日志错误信息修复对应问题,再重新部署容器应用,查看容器是否能成功运行。
父主题: 容器应用部署