MindIO ACP
组件应用场景
CheckPoint是模型中断训练后恢复的关键点,CheckPoint的密集程度、保存和恢复的性能较为关键,它可以提高训练系统的有效吞吐率。MindIO ACP(Async CheckPoint Persistence,异步CheckPoint保存)针对CheckPoint的加速方案,支持昇腾产品在LLM模型领域扩展市场空间。
组件功能
MindIO ACP加速大模型CheckPoint功能主要针对大模型训练中的CheckPoint的保存及加载进行加速,CheckPoint的数据先写入训练服务器的内存系统中,再异步写入后端的可靠性存储设备中。主要介绍纵向加速部分,包含CheckPoint在本系统中的写入及读取过程。
组件上下游依赖
图1 MindIO ACP


父主题: 组件介绍