概述

  • MindIO ACP SDK端支持宿主机和容器内部署。
  • 容器场景的镜像制作、镜像部署、镜像安全加固等由使用者保证。
  • 只支持DeepSpeed框架、X1框架、MindSpeed、MindSpeed-LLM、K8s和Docker的固定版本。
  • 在使用MindIO ACP服务时,启动训练任务的用户需要和启动MindIO ACP守护进程的用户属于同一个主组。

安装MindIO ACP SDK之后,为了使用MindIO ACP的缓存加速能力,将训练模型中使用到Python文件中的Torch的load/save函数,替换为MindIO ACP SDK的load/save函数。