昇腾社区首页
中文
注册

组网规划

图1 部署逻辑示意图

深度学习平台与训练任务相关的节点有计算节点和存储节点。各类节点主要功能如下:

  • 计算节点:实际执行训练、推理任务的节点,MindIO ACP仅部署在计算节点。
  • 存储节点:存储平台数据和用户数据,如平台日志、用户上传的数据集、训练脚本、训练输出的模型等。

网络平面划分为:

  • 业务面:用于集群业务管理。管理节点和计算节点之间连接。
  • 存储面:用于访问存储节点。管理节点和计算节点连接到存储节点。
  • 参数面:用于分布式训练时,训练节点之间的参数交换以及训练节点之间连接。
  • 逻辑部署示意图表示深度学习平台的完整示意图,MindIO ACP作为计算节点上部署的一个组件,不涉及管理节点和存储节点的安装部署。
  • MindIO ACP是单节点内存缓存系统,训练CheckPoint数据通过共享内存方式访问MindIO ACP,不涉及网络平面划分。