下载
中文
注册

应用场景

随着神经网络规模和数据集规模的急剧增长,单个服务器逐渐难以胜任大规模的神经网络训练,从而需要采用多个服务器(包含更多的AI芯片)组成高密度训练集群进行长时间分布式训练。随着训练集群规模的扩大,训练过程中因故障导致训练任务异常,从而需要重新进行训练的情况随之增多。提升集群可用度成为当前需要面对的重大问题。

现有大规模集群训练主要通过ckpt(checkpoint)机制,即在训练过程中周期性保存训练过程数据(模型参数等)作为ckpt,当业务平台检测到故障发生后,可退出当前训练任务,通过重新加载ckpt数据,从ckpt保存时刻开始恢复训练,避免从头开始重新进行训练。

了解断点续训特性的详细介绍及所依赖组件,请参见断点续训章节。

  • 较小规模的模型任务训练用时较短(时长 < 1h),硬件出现故障的频率较低,不推荐用户使用断点续训特性。
  • 本特性不适应于算力虚拟化场景。

读者对象

需要集成断点续训功能的深度学习平台开发者。