昇腾社区首页
中文
注册

Ascend Operator

应用场景

MindCluster提供Ascend Operator组件,输入集合通信所需的主进程IP、静态组网集合通信所需的RankTable信息、当前Pod的rankId等信息。

组件功能

  • 创建Pod,并将集合通信参数按照环境变量的方式注入。
  • 创建RankTable文件,并按照共享存储或ConfigMap的方式挂载到容器,优化集合通信建链性能。

组件上下游依赖

图1 组件上下游依赖
  1. 通过Volcano感知当前任务所需资源是否满足。
  2. 资源满足后,针对任务创建对应的Pod并注入集合通信参数的环境变量。
  3. Pod创建完成后,Volcano进行资源的最终选定。
  4. Ascend Device Plugin获取任务的芯片编号、IP、rankId信息,汇总后生成集合通信文件。
  5. 通过共享存储或ConfigMap,将集合通信文件挂载到容器内。