图1 部署逻辑示意图
深度学习平台与训练任务相关的节点有计算节点和存储节点。各类节点主要功能如下:
- 计算节点:实际执行训练、推理任务的节点,MindIO TFT仅部署在计算节点。
- 存储节点:存储平台数据和用户数据,如平台日志、用户上传的数据集、训练脚本、训练输出的模型等。
网络平面划分为:
- 业务面:用于集群业务管理。管理节点和计算节点之间连接。
- 存储面:用于访问存储节点。管理节点和计算节点连接到存储节点上。
- 参数面:用于分布式训练时,训练节点之间的参数交换以及训练节点之间连接。
- 逻辑部署示意图表示深度学习平台的完整示意图,MindIO TFT特性只需要在计算节点上部署的一个SDK(Software Development Kit),不涉及存储节点的安装部署。
- MindIO TFT功能SDK需要在计算节点相互通信,发送心跳报文,需要使用业务面网络,SDK在所有运行大模型训练的计算节点对等部署,部署时不区分管理节点和Worker节点。