使用约束

命令行场景支持的产品和框架如表1所示。

表1 支持的产品和框架
类型	配置
服务器	Atlas 800 训练服务器（型号 9000）（NPU满配）
训练框架	MindSpore、TensorFlow和PyTorch。

本章节提供了故障恢复和混合并行模型的脚本适配示例。用户请根据实际情况选择对应的脚本适配示例。

使用弹性训练前，用户可提前了解表2中的相关说明。

表2 使用说明
场景	说明
环境要求	需要保证K8s集群中各节点时间一致，避免程序误判。
环境要求	用于检测NPU芯片间连通性的IP地址推荐配置为路由器的IP地址。
故障处理	使用单机多卡进行训练，当出现故障时，优先按照原任务规格进行恢复，且任务规格遵循8、4、2、1卡的恢复策略。
	若Resilience Controller在重新调度任务的过程中，该任务出现新的故障，将不再进行处理。
	若在集群资源有限的场景中，当多个任务同时故障触发重调度，可能会出现由于资源不足而导致任务处于Pending状态。
特性说明	本特性不适用于虚拟化实例场景。
	本特性目前支持服务器和芯片间数据并行和混合并行的分布式vcjob类型的训练任务。
	本特性仅支持设备故障和服务器网络故障检测，说明如下：设备故障支持《Atlas A2 中心推理和训练硬件健康管理故障定义》中DCMI接口上报的“重执行业务”、“热复位芯片”和“隔离芯片”类型的错误。设备网络探测工具hccn_tool检测到的设备网络故障；服务器网络故障依赖于NodeD组件的心跳机制，NodeD未正确安装或者节点间网络不通都会影响该故障检测功能。

父主题： 通过命令行使用（Volcano）