特性说明
- 断点续训支持的系统规格如下表。
表1 系统规格 类型
配置
服务器
- Atlas 800 训练服务器(型号:9000)(NPU满配)
- Atlas 800 训练服务器(型号:9010)(NPU满配)
- Atlas 800 训练服务器(型号:9000)(NPU半配)
- Atlas 800 训练服务器(型号:9010)(NPU半配)
训练框架
MindSpore/TensorFlow/PyTorch,其中断点续训特性中的临终遗言功能只支持MindSpore框架。
- 断点续训特性的临终遗言功能不支持对保存的checkpoint文件加解密。
- 断点续训特性的临终遗言功能中使用了SigTerm和SigInt的信号量。
- 使用前需要检查存储的磁盘空间,确保可以容纳checkpoint。
父主题: 断点续训使用示例