昇腾社区首页
中文
注册

组网规划

图1 部署逻辑示意图

深度学习平台与训练任务相关的节点有计算节点和存储节点。各类节点主要功能如下:

  • 计算节点:实际执行训练、推理任务的节点,MindIO TFT仅部署在计算节点。
  • 存储节点:存储平台数据和用户数据,如平台日志、用户上传的数据集、训练脚本、训练输出的模型等。

网络平面划分为:

  • 业务面:用于集群业务管理。管理节点和计算节点之间连接。
  • 存储面:用于访问存储节点。管理节点和计算节点连接到存储节点。
  • 参数面:用于分布式训练时,训练节点之间的参数交换以及训练节点之间连接。
    • 逻辑部署示意图表示深度学习平台的完整示意图,MindIO TFT特性只需要在计算节点上部署一个SDK(Software Development Kit),不涉及存储节点的安装部署。
    • MindIO TFT功能SDK需要在计算节点相互通信,发送心跳报文,需要使用业务面网络,SDK在所有运行大模型训练的计算节点对等部署,部署时不区分管理节点和Worker节点。