应用场景
随着神经网络规模和数据集规模的急剧增长,单个服务器逐渐难以胜任大规模的神经网络训练,需要采用多个服务器(包含更多的AI芯片)组成高密度训练集群进行长时间分布式训练。然而随着硬件规模的扩大,硬件故障的发生概率随之增加,训练中断也更加频繁。因此,提升集群可用度成为当前需要面对的重大问题。
提升集群可用度需要降低每次训练后的故障恢复成本。当前故障恢复通常需要人工排查硬件故障或者软件异常,需要大量人工成本;并且隔离故障设备后再重新拉起训练任务,需要耗费较长时间。
断点续训提供以下关键功能特性,解决训练过程中的故障处理问题,以提升集群可用度。
关键功能特性
应用场景
场景分类 |
主要业务 |
业务价值 |
---|---|---|
AI训练场景 |
支持对计算、网络和存储设备资源的监测,AI环境的健康检查和AI作业故障诊断。 |
|

- 较小规模的模型任务训练用时较短(时长 < 1h),硬件出现故障的频率较低,不推荐用户使用断点续训特性。
- 本特性不适用于算力虚拟化场景。
父主题: 特性说明