随着神经网络规模和数据集规模的急剧增长，单个服务器逐渐难以胜任大规模的神经网络训练，需要采用多个服务器（包含更多的AI芯片）组成高密度训练集群进行长时间分布式训练。然而随着硬件规模的扩大，硬件故障的发生概率随之增加，训练中断也更加频繁。因此，提升集群可用度成为当前需要面对的重大问题。

提升集群可用度需要降低每次训练后的故障恢复成本。当前故障恢复通常需要人工排查硬件故障或者软件异常，需要大量人工成本；并且隔离故障设备后再重新拉起训练任务，需要耗费较长时间。

断点续训提供以下关键功能特性，解决训练过程中的故障处理问题，以提升集群可用度。

功能名称	说明	配置步骤
故障检测	断点续训具有故障检测功能，支持实时监测训练场景下的20+软件类故障及90+硬件类故障的故障检测。详细功能及原理介绍请参见故障检测。	（可选）配置故障检测级别
故障处理	断点续训具有故障处理功能，出现故障后不需要人工介入就可自动隔离故障设备。详细功能及原理介绍请参见故障处理。	配置故障处理
训练恢复	断点续训具有训练恢复功能，用户可自定义训练恢复的策略，以最小粒度恢复训练状态，降低训练拉起时间。详细功能及原理介绍请参见训练恢复。	配置训练恢复

功能名称

说明

配置步骤

故障检测

断点续训具有故障检测功能，支持实时监测训练场景下的20+软件类故障及90+硬件类故障的故障检测。

详细功能及原理介绍请参见故障检测。

故障处理

断点续训具有故障处理功能，出现故障后不需要人工介入就可自动隔离故障设备。

详细功能及原理介绍请参见故障处理。

训练恢复

断点续训具有训练恢复功能，用户可自定义训练恢复的策略，以最小粒度恢复训练状态，降低训练拉起时间。

详细功能及原理介绍请参见训练恢复。

场景分类	主要业务	业务价值
AI训练场景	支持对计算、网络和存储设备资源的监测，AI环境的健康检查和AI作业故障诊断。	整体监测集群环境资源。提升AI训练业务的作业成功率。减少AI作业训练故障的处理及恢复时间。

场景分类

主要业务

业务价值

AI训练场景

支持对计算、网络和存储设备资源的监测，AI环境的健康检查和AI作业故障诊断。