HCCL-Controller配合Volcano、Ascend Device Plugin(启动参数volcanoType设置为true)一起使用,按照训练任务章节下各训练框架“创建yaml文件”章节中获取的训练任务yaml模板下发NPU训练任务时,会默认生成格式为“模板一”的昇腾AI处理器资源配置文件(即Rank table文件)。模板格式详见《CANN TensorFlow 1.15网络模型迁移和训练指南》中“手工迁移和训练 > 分布式并行训练 >执行分布式训练”章节的“准备配置文件”的模版一。
docker images | grep hccl-controller
root@ubuntu:# docker images | grep hccl-controller hccl-controller v5.0.RC1 f78993dcf54f About an hour ago 143MB
cd /home/ascend-hccl-controller scp root@{软件包解压节点IP地址}:/home/ascend-hccl-controller/hccl-controller-v{version}.yaml ./
kubectl apply -f hccl-controller-v{version}.yaml
启动示例如下,出现Running表示组件启动成功:
root@ubuntu:/home/ascend-hccl-controller# kubectl apply -f hccl-controller-v5.0.RC1.yaml serviceaccount/hccl-controller created clusterrole.rbac.authorization.k8s.io/pods-hccl-controller-role created clusterrolebinding.rbac.authorization.k8s.io/hccl-controller-rolebinding created deployment.apps/hccl-controller created root@ubuntu:/home/ascend-hccl-controller# kubectl get pod -n mindx-dl NAME READY STATUS RESTARTS AGE ... hccl-controller-5d484dcc68-wfvrr 1/1 Running 0 11s ...
参数 |
类型 |
默认值 |
说明 |
---|---|---|---|
-jobParallelism |
int |
1 |
job任务的并发数,范围为[1,32]。 |
-podParallelism |
int |
1 |
Pod任务的并发数,范围为[1,32]。 |
-version |
bool |
false |
HCCL-Controller二进制版本号。 |
-json |
string |
v2 |
HCCL-Controller生成的ranktable文件模板。
|
-logLevel |
int |
0 |
日志级别:
|
-maxAge |
int |
7 |
日志备份时间限制,范围为[7,700],单位为天。 |
-logFile |
string |
/var/log/mindx-dl/hccl-controller/hccl-controller.log |
日志文件。
说明:
单个日志文件超过20 MB时会触发自动转储功能,文件大小上限不支持修改。 |
-maxBackups |
int |
30 |
转储后日志文件保留个数上限,范围为(0,30],单位为个。 |
-h或者-help |
无 |
不涉及 |
显示帮助信息。 |