当出现硬件故障,且无备用设备时,集群调度组件将对故障节点进行隔离,并根据任务预设的规模和当前集群中可用的节点数,重新设置任务副本数,然后进行重调度和重训练(需进行脚本适配)。
NFS需要用户根据使用情况进行目录隔离,NFS的随机读写性能必须能够在15分钟内保存完整的ckpt文件,建议用户使用专业的存储服务器,NFS具体性能要求给出如下参考。
场景 |
说明 |
---|---|
环境要求 |
需要保证K8s集群中各节点时间一致,避免程序误判。 |
用于检测NPU芯片间连通性的IP地址推荐配置为路由器的IP地址。 |
|
故障处理 |
使用单机多卡进行训练,当出现故障时,优先按照原任务规格进行恢复,且任务规格遵循8、4、2、1卡的恢复策略。 |
若Resilience Controller在重新调度任务的过程中,该任务出现新的故障,将不再进行处理。 |
|
若在集群资源有限的场景中,当多个任务同时故障触发重调度,可能会出现由于资源不足而导致任务处于Pending状态。 |
|
特性说明 |
本特性不适用于虚拟化实例场景。 |
本特性目前支持服务器和芯片间数据并行和混合并行的分布式vcjob类型的训练任务。 |
|
本特性仅支持设备故障和服务器网络故障检测,说明如下:
|
支持Atlas 800 训练服务器产品使用弹性训练。