开发者
资源
LLM 后训练
3
课程
1
微认证
1小时
1907
暂无评分
我要评分
本教程旨在通过理论解析与实战演练相结合的方式,指导开发者基于昇腾NPU平台,利用MindSpeed RL套件快速完成大模型强化学习后训练任务。
开始学习
MindSpeed RL强化学习全流程
1
昇腾MindSpeed RL框架代码解析
2
多模态强化学习框架简介与迁移
3
完成路径
额外的成长积分
50积分
知识点
1.《MindSpeed RL强化学习全流程》 2.《昇腾MindSpeed RL框架代码解析》 3.《多模态强化学习框架简介与迁移(DanceGRPO)》
发布学习笔记,解答同学疑问,更有丰富奖励等你来参与
查看详情