使用约束
命令行场景支持的产品和框架如表1所示。
使用样例说明
本章节提供了故障恢复和混合并行模型的脚本适配示例。用户请根据实际情况选择对应的脚本适配示例。
- 故障恢复:
- Resnet50模型
- 基于TensorFlow的故障恢复
- 基于PyTorch的故障恢复
- 基于MindSpore的故障恢复
- Pangu_alpha模型
- Resnet50模型
- 混合并行模型示例代码:基于Pangu_alpha模型的混合并行模型
使用说明
使用弹性训练前,用户可提前了解表2中的相关说明。
场景 |
说明 |
---|---|
环境要求 |
需要保证K8s集群中各节点时间一致,避免程序误判。 |
用于检测NPU芯片间连通性的IP地址推荐配置为路由器的IP地址。 |
|
故障处理 |
使用单机多卡进行训练,当出现故障时,优先按照原任务规格进行恢复,且任务规格遵循8、4、2、1卡的恢复策略。 |
若Resilience Controller在重新调度任务的过程中,该任务出现新的故障,将不再进行处理。 |
|
若在集群资源有限的场景中,当多个任务同时故障触发重调度,可能会出现由于资源不足而导致任务处于Pending状态。 |
|
特性说明 |
本特性不适用于虚拟化实例场景。 |
本特性目前支持服务器和芯片间数据并行和混合并行的分布式vcjob类型的训练任务。 |
|
本特性仅支持设备故障和服务器网络故障检测,说明如下: |
父主题: 通过命令行使用(Volcano)