断点续训提供故障发现、任务重调度等功能,当K8s集群中执行分布式训练任务发生故障时,可自动重调度和进行训练重启恢复。通过集成相关组件,可为第三方AI平台提供断点续训的能力。本文集成示例以Go编程语言作为实例,创建训练任务。
了解平台集成的详细步骤说明请参见通过平台使用章节。
关键流程 |
操作步骤 |
说明 |
---|---|---|
平台集成 |
安装部署 |
在云平台的K8s集群中安装并配置好集群调度组件或自行适配可替换的组件。 |
平台二次开发 |
|
|
准备任务 |
准备镜像 |
准备训练镜像。 |
适配脚本 |
完成训练脚本适配。 |
|
启动训练 |
创建任务 |
通过平台配置并创建任务。 |
运行任务 |
通过平台查看任务运行结果。 |
任务拉起后,会自动填充全量的任务rank信息到ConfigMap中
status :initializing
平台用户在平台集成后使用断点续训的操作和示例可参考通过平台使用。