昇腾社区首页
中文
注册

任务重调度之后,训练日志被覆盖

问题现象描述

执行训练任务中出现故障,故障Pod进行任务重调度(断点续训)之后,训练日志被覆盖,上一次训练日志丢失。

原因分析

因为不同训练框架日志生成逻辑不同,部分框架会覆盖上次日志,导致上一次训练日志丢失。

解决措施

修改训练脚本(train_start.sh)中日志创建部分,使用date获取时间戳,在每次重调度之后生成带有时间戳的日志路径。以训练日志路径TRAIN_LOG_PATH为例:

timestamp=$(date +"%Y%m%d%H%M%S")
mkdir /job/code/alllogs/$MINDX_TASK_ID/trainlogs/$XDL_IP-$RANK-$timestamp    # 创建训练日志保存路径
export TRAIN_LOG_PATH=/job/code/alllogs/$MINDX_TASK_ID/trainlogs/$XDL_IP-$RANK-$timestamp   # 设置训练日志保存路径