应用场景

随着神经网络规模和数据集规模的急剧增长,单个服务器逐渐难以胜任大规模的神经网络训练,需要采用多个服务器(包含更多的AI芯片)组成高密度训练集群进行长时间分布式训练。然而随着硬件规模的扩大,硬件故障的发生概率随之增加,训练中断也更加频繁。因此,提升集群可用度成为当前需要面对的重大问题。

提升集群可用度需要降低每次训练后的故障恢复成本。当前故障恢复通常需要人工排查硬件故障或者软件异常,需要大量人工成本;并且隔离故障设备后再重新拉起训练任务,需要耗费较长时间。

断点续训提供以下关键功能特性,解决训练过程中的故障处理问题,以提升集群可用度。

关键功能特性

功能名称

说明

配置步骤

故障检测

断点续训具有故障检测功能,支持实时监测训练场景下的20+软件类故障及90+硬件类故障的故障检测。

详细功能及原理介绍请参见故障检测

(可选)配置故障检测级别

故障处理

断点续训具有故障处理功能,出现故障后不需要人工介入就可自动隔离故障设备。

详细功能及原理介绍请参见故障处理

配置故障处理

训练恢复

断点续训具有训练恢复功能,用户可自定义训练恢复的策略,以最小粒度恢复训练状态,降低训练拉起时间。

详细功能及原理介绍请参见训练恢复

配置训练恢复

应用场景

场景分类

主要业务

业务价值

AI训练场景

支持对计算、网络和存储设备资源的监测,AI环境的健康检查和AI作业故障诊断。

  • 整体监测集群环境资源。
  • 提升AI训练业务的作业成功率。
  • 减少AI作业训练故障的处理及恢复时间。
  • 较小规模的模型任务训练用时较短(时长 < 1h),硬件出现故障的频率较低,不推荐用户使用断点续训特性。
  • 本特性不适用于算力虚拟化场景。