昇腾社区首页
EN
注册

使用约束

命令行场景支持的产品和框架如表1所示。

表1 支持的产品和框架

类型

配置

服务器

Atlas 800 训练服务器(型号 9000)(NPU满配)

训练框架

MindSporeTensorFlowPyTorch

使用样例说明

本章节提供了故障恢复和混合并行模型的脚本适配示例。用户请根据实际情况选择对应的脚本适配示例。

  • 故障恢复:
    • Resnet50模型
      • 基于TensorFlow的故障恢复
      • 基于PyTorch的故障恢复
      • 基于MindSpore的故障恢复
    • Pangu_alpha模型
  • 混合并行模型示例代码:基于Pangu_alpha模型的混合并行模型

使用说明

使用弹性训练前,用户可提前了解表2中的相关说明。

表2 使用说明

场景

说明

环境要求

需要保证K8s集群中各节点时间一致,避免程序误判。

用于检测NPU芯片间连通性的IP地址推荐配置为路由器的IP地址。

故障处理

使用单机多卡进行训练,当出现故障时,优先按照原任务规格进行恢复,且任务规格遵循8、4、2、1卡的恢复策略。

Resilience Controller在重新调度任务的过程中,该任务出现新的故障,将不再进行处理。

若在集群资源有限的场景中,当多个任务同时故障触发重调度,可能会出现由于资源不足而导致任务处于Pending状态。

特性说明

本特性不适用于虚拟化实例场景。

本特性目前支持服务器和芯片间数据并行和混合并行的分布式vcjob类型的训练任务。

本特性仅支持设备故障和服务器网络故障检测,说明如下:

  • 设备故障支持Atlas A2 中心推理和训练硬件 健康管理故障定义中DCMI接口上报的“重执行业务”“热复位芯片”“隔离芯片”类型的错误。
  • 设备网络探测工具hccn_tool检测到的设备网络故障;服务器网络故障依赖于NodeD组件的心跳机制,NodeD未正确安装或者节点间网络不通都会影响该故障检测功能。