返回顶部 对接非MindSpeed-LLM框架 前提条件使用前请先了解MindIO TFT的约束限制。 本次发布包支持类Megatron框架,环境、代码、数据集请用户自行准备,并确保其安全性。本节内容仅具有适配指导意义,具体实现细节需由用户自行实现。 特性参考相关特性所需的功能适配点如表1所示,各功能适配点对应的代码参考链接如表2所示。 表1 特性及功能适配点特性 需要的功能适配点序号 临终遗言 1、2、3、4、5、6、7 UCE快恢 1、2、3、4、5、6、8、10、11 网络快恢 1、2、5、6、11 进程快恢 1、2、3、4、5、6、9、10、11 亚健康热切 1、2、3、4、5、9、10、11、12 在线压测/借轨回切 1、2、12 表2 相关功能的代码参考链接序号 适配功能点 参考代码 1 初始化启动 LLM仓参考链接 2 上报优化器更新状态 3 创建DP副本组 LLM仓参考链接 4 优化器副本 LLM仓参考链接 5 异常捕获装饰器 LLM仓参考链接 6 算子资源清理 LLM仓参考链接 7 临终Checkpoint LLM仓参考链接 8 UCE模型优化器重建 LLM仓参考链接 9 节点重启及通信重建 LLM仓参考链接 10 参数面在线修复 LLM仓参考链接 11 状态回滚 LLM仓参考链接 12 优雅暂停 LLM仓参考链接 父主题: 使用指导