特性说明
断点续训支持的系统规格如下表。
表1
系统规格
类型
配置
服务器
Atlas 800 训练服务器(型号 9000)(NPU满配)
Atlas 800 训练服务器(型号 9010)(NPU满配)
Atlas 800 训练服务器(型号 9000)(NPU半配)
Atlas 800 训练服务器(型号 9010)(NPU半配)
训练框架
MindSpore/TensorFlow/PyTorch,其中断点续训特性中的临终遗言功能只支持MindSpore框架。
断点续训特性的临终遗言功能不支持对保存的checkpoint文件加解密。
断点续训特性的临终遗言功能中使用了SigTerm和SigInt的信号量。
使用前需要检查存储的磁盘空间,确保可以容纳checkpoint。
父主题:
断点续训使用示例