约束限制
仅支持使用
集群调度组件
的K8s集群,同时需要保证K8s集群中各节点时间一致,避免程序误判。
NFS需要用户根据使用情况进行目录隔离,NFS的随机读写性能必须能够在15分钟内保存完整的ckpt文件,建议用户使用专业的存储服务器,具体性能要求给出如下参考。
断点续训特性仅支持设备故障和服务器网络故障检测:设备故障支持
《
Ascend 910 黑匣子错误码信息列表
》
中DCMI接口上报的
“紧急”
和
“重要”
类型的错误和设备网络探测工具hccn_tool检测到的设备网络故障;服务器网络故障依赖于NodeD组件的心跳机制,NodeD未正确安装或者节点间网络不通都会影响该故障检测功能。
本特性不适用于
虚拟化实例
场景。
本特性依赖
集群调度组件
中Volcano、HCCL-Controller、NodeD和Ascend Device Plugin四个组件。如使用断点续训特性中的临终遗言功能,还需要使用mindx_elastic二进制文件。
该特性目前只支持vcjob类型的任务。
需要在vcjob类型任务的yaml中增加故障重调度的开关“fault-scheduling”,其值参考:
表1
。
“临终遗言”
需要在vcjob类型任务的yaml中配置停止优雅时间:
“terminationGracePeriodSeconds”
,具体请参见:
表2
。
需要在vcjob类型任务的yaml中配置失败重试机制:
"maxRetry"
,具体请参见:
yaml参数说明
。
节点故障目前由Volcano负责检查,当NodeD最近一次上报心跳之后的一段时间内未再次上报心跳(
大于两次心跳上报间隔的阈值
)时,Volcano就会认为NodeD所在节点故障,从而触发故障重调度。当后续NodeD两次心跳上报间隔小于或等于阈值时,Volcano认为NodeD所在节点恢复正常。
计算公式:
两次心跳上报间隔的阈值
=
心跳发送间隔配置
x 3,其中3表示Volcano会重试3次。
父主题:
MindX DL场景