图1 部署逻辑示意图
深度学习平台与训练任务相关的节点有计算节点和存储节点。各类节点主要功能如下:
- 计算节点:实际执行训练、推理任务的节点,MindIO仅部署在计算节点。
- 存储节点:存储平台数据和用户数据,如平台日志、用户上传的数据集、训练脚本、训练输出的模型等。
网络平面划分为:
- 业务面:用于集群业务管理。管理节点和计算节点之间连接。
- 存储面:用于访问存储节点。管理节点和计算节点连接到存储节点上。
- 参数面:用于分布式训练时,训练节点之间的参数交换以及训练节点之间连接。
- 逻辑部署示意图表示的深度学习平台的完整示意图,MindIO作为计算节点上部署的一个组件,不涉及管理节点和存储节点的安装部署。
- MindIO是单节点内存缓存系统,训练CheckPoint数据通过共享内存方式访问MindIO,不涉及网络平面划分。