应用场景
随着神经网络和数据集的规模越来越大,单台服务器已经难以完成大规模的训练任务。为了应对这一挑战,通常需要使用多台服务器(配备更多的AI芯片)组成高密度训练集群,进行长时间的分布式训练。但随着硬件数量的增加,设备出现故障的概率也会上升,训练中断也更加频繁。因此,如何提升集群的可用性,成为当前亟需解决的重要问题。
提升集群可用度需要降低每次训练后的故障恢复成本。当前故障恢复通常需要人工排查硬件故障或者软件异常,需要大量人工成本;并且隔离故障设备后再重新拉起训练任务,需要耗费较长时间,影响整体效率。
为了解决这些问题,断点续训提供以下关键功能特性,能够在训练过程中有效应对故障,减少恢复时间,从而显著提升集群的可用性和稳定性。
关键功能特性
应用场景
场景分类 |
主要业务 |
业务价值 |
---|---|---|
AI训练场景 |
支持对计算、网络和存储设备资源的监测,AI环境的健康检查和AI作业故障诊断。 |
|

- 较小规模的模型任务训练用时较短(时长 < 1h),硬件出现故障的频率较低,不推荐用户使用断点续训特性。
- 本特性不适用于算力虚拟化场景。
父主题: 特性说明