共享/远端存储场景转储适配策略(可选)
转储场景
在本地存储场景的基础上,需要平台具备日志上传能力,转储计算节点日志至远端/共享存储。
转储目录映射策略
计算节点日志目录和存储目录的转储映射关系可参考下图所示。
图1 计算节点日志目录和存储目录的转储映射关系

转储策略
当故障中断或训练结束时,通过平台能力转储至共享/远端存储。

- 可通过kubectl get pods -n ${namespace}查询pod状态确认训练任务状态。
- 可通过日志文件存储目录创建时间确认最新训练任务。
计算节点磁盘空间清理策略
训练作业产生的相关日志文件会留存在计算节点服务器上,须训练平台具备日志文件清理能力,清理老化日志。

为保障正常训练作业,计算节点须预留充足的磁盘空间,训练作业产生的相关日志文件请及时转储至共享或远端,按需删除最早训练作业产生的日志。
父主题: 日志转储配置