随着神经网络规模和数据集规模的急剧增长,单个服务器逐渐难以胜任大规模的神经网络训练,需要采用多个服务器(包含更多的AI芯片)组成高密度训练集群进行长时间分布式训练。然而随着硬件规模的扩大,硬件故障的发生概率随之增加,训练中断也更加频繁。因此,提升集群可用度成为当前需要面对的重大问题。
提升集群可用度需要降低每次训练后的故障恢复成本。当前故障恢复通常需要人工排查硬件故障或者软件异常,需要大量人工成本;并且隔离故障设备后再重新拉起训练任务,需要耗费较长时间。
断点续训提供以下关键功能特性,解决训练过程中的故障处理问题,以提升集群可用度。
关键功能特性
功能名称
|
说明
|
配置步骤
|
故障检测
|
断点续训具有故障检测功能,支持实时监测训练场景下的20+软件类故障及90+硬件类故障的故障检测。
详细功能及原理介绍请参见故障检测。
|
(可选)配置故障检测级别
|
故障处理
|
断点续训具有故障处理功能,出现故障后不需要人工介入就可自动隔离故障设备。
详细功能及原理介绍请参见故障处理。
|
配置故障处理
|
训练恢复
|
断点续训具有训练恢复功能,用户可自定义训练恢复的策略,以最小粒度恢复训练状态,降低训练拉起时间。
详细功能及原理介绍请参见训练恢复。
|
配置训练恢复
|
应用场景
场景分类
|
主要业务
|
业务价值
|
AI训练场景
|
支持对计算、网络和存储设备资源的监测,AI环境的健康检查和AI作业故障诊断。
|
- 整体监测集群环境资源。
- 提升AI训练业务的作业成功率。
- 减少AI作业训练故障的处理及恢复时间。
|
- 较小规模的模型任务训练用时较短(时长 < 1h),硬件出现故障的频率较低,不推荐用户使用断点续训特性。
- 本特性不适用于算力虚拟化场景。