如果使用MindCluster Volcano组件作为调度器,需要先安装MindCluster Volcano组件。
docker images | grep hccl-controller
kubectl apply -f hccl-controller-v{version}.yaml
启动示例如下:
serviceaccount/hccl-controller created clusterrole.rbac.authorization.k8s.io/pods-hccl-controller-role created clusterrolebinding.rbac.authorization.k8s.io/hccl-controller-rolebinding created deployment.apps/hccl-controller created
kubectl get pod -n mindx-dl
回显示例如下,出现Running表示组件启动成功。
NAME READY STATUS RESTARTS AGE ... hccl-controller-5d484dcc68-wfvrr 1/1 Running 0 11s ...
参数 |
类型 |
默认值 |
说明 |
---|---|---|---|
-jobParallelism |
int |
1 |
job任务的并发数,取值范围为1~32。 |
-podParallelism |
int |
1 |
Pod任务的并发数,取值范围为1~32。 |
-version |
bool |
false |
是否查询MindCluster HCCL Controller二进制版本号。
|
-json |
string |
v2 |
MindCluster HCCL Controller生成的ranktable文件模板。
说明:
模板格式说明,请参见《CANN TensorFlow 1.15模型迁移指南》中“准备ranktable资源配置文件”章节的“配置文件说明”。 |
-logLevel |
int |
0 |
日志级别:
|
-maxAge |
int |
7 |
日志备份时间限制,范围为7~700,单位为天。 |
-logFile |
string |
/var/log/mindx-dl/hccl-controller/hccl-controller.log |
日志文件。 说明:
单个日志文件超过20 MB时会触发自动转储功能,文件大小上限不支持修改。转储后文件的命名格式为:hccl-controller-触发转储的时间.log,如:hccl-controller-2023-10-07T03-38-24.402.log。 |
-maxBackups |
int |
30 |
转储后日志文件保留个数上限,范围为1~30,单位为个。 |
-kubeApiQps |
int |
200 |
与K8s通信时使用的QPS(每秒请求率)。取值范围为(0, 10000],不在取值范围内使用默认值200。 |
-kubeApiBurst |
int |
200 |
与K8s通信时使用的突发流量。取值范围为(0, 10000],不在取值范围内使用默认值200。 |
-h或者-help |
无 |
无 |
显示帮助信息。 |