昇腾社区首页
中文
注册

共享/远端存储场景转储适配策略(可选)

转储场景

在本地存储场景的基础上,需要平台具备日志上传能力,转储计算节点日志至远端/共享存储。

转储目录映射策略

计算节点日志目录和存储目录的转储映射关系可参考下图所示。

图1 计算节点日志目录和存储目录的转储映射关系

转储策略

当故障中断或训练结束时,通过平台能力转储至共享/远端存储。

  • 可通过kubectl get pods -n ${namespace}查询pod状态确认训练任务状态。
  • 可通过日志文件存储目录创建时间确认最新训练任务。

计算节点磁盘空间清理策略

训练作业产生的相关日志文件会留存在计算节点服务器上,须训练平台具备日志文件清理能力,清理老化日志。

为保障正常训练作业,计算节点须预留充足的磁盘空间,训练作业产生的相关日志文件请及时转储至共享或远端,按需删除最早训练作业产生的日志。