昇腾社区首页
中文
注册
开发者
下载

对接非MindSpeed-LLM框架

前提条件

使用前请先了解MindIO TFT约束限制

  • 本次发布包支持类Megatron框架,环境、代码、数据集请用户自行准备,并确保其安全性。
  • 本节内容仅具有适配指导意义,具体实现细节需由用户自行实现。

特性参考

相关特性所需的功能适配点如表1所示,各功能适配点对应的代码参考链接如表2所示。

表1 特性及功能适配点

特性

需要的功能适配点序号

临终遗言

1、2、3、4、5、6、7

UCE快恢

1、2、3、4、5、6、8、10、11

网络快恢

1、2、5、6、11

进程快恢

1、2、3、4、5、6、9、10、11

亚健康热切

1、2、3、4、5、9、10、11、12

在线压测/借轨回切

1、2、12

表2 相关功能的代码参考链接

序号

适配功能点

参考代码

1

初始化启动

LLM仓参考链接

2

上报优化器更新状态

3

创建DP副本组

LLM仓参考链接

4

优化器副本

LLM仓参考链接

5

异常捕获装饰器

LLM仓参考链接

6

算子资源清理

LLM仓参考链接

7

临终Checkpoint

LLM仓参考链接

8

UCE模型优化器重建

LLM仓参考链接

9

节点重启及通信重建

LLM仓参考链接

10

参数面在线修复

LLM仓参考链接

11

状态回滚

LLM仓参考链接

12

优雅暂停

LLM仓参考链接