认证内容
| 章节 | 时长(分钟) | 学习目标 |
|---|---|---|
| 昇腾硬件架构介绍 | 3 | 昇腾硬件架构基础了解 |
| 算子执行流程 | 4 | 算子执行流程了解 |
| SGEMM单精度通用矩阵乘 | 10 | SGEMM单精度通用矩阵乘了解 |
| CGEMM单精度复数矩阵乘与算子参数详解 | 4 | CGEMM单精度复数矩阵乘了解 |
| 性能优化 | 24 | 算子性能优化方法了解 |
| 算子开发实践 | 14 | 算子开发实践 |
| 算子性能评估资料 | 7 | 算子性能评估工具等了解 |
| 性能优化成果 | 4 | SGEMM、CGEMM等性能了解 |
认证学习
GEMM类算子调优课程
本课程以通用矩阵乘法(GEMM)为基准,揭示昇腾NPU上算子调优的实操技巧。学员将学习Atlas 800T A2芯片的AIC/AIV分离架构特性,掌握MTE2/MTE3搬运单元的对齐策略。课程重点讲解双缓冲(Double Buffer)技术实现矩阵乘法的流水线并行,通过CGEMM复数运算案例展示虚实分离的高效实现方式。学员将通过mprof工具对实际的SGEMM性能进行比对,掌握算子性能瓶颈识别方法。课程同时提供多种狭长矩阵优化策略,帮助开发者在昇腾平台进一步提升自定义矩阵算子的性能。本课程适合追求极致性能的算子开发者,助您掌握NPU的流水线编排艺术。 为了更高效、准确地传递课程内容,我们采用了语音合成技术,降低人工录制环节的不确定性。目前AI语音可能还不够完美,我们将努力优化播讲效果,力求给您更好的学习体验,同时也欢迎大家推荐更好用的语音合成引擎——您的声音对我们非常重要!
通过本课程将掌握:
- 昇腾硬件架构介绍
- 算子执行流程
- SGEMM单精度通用矩阵乘
- CGEMM单精度复数矩阵乘与算子参数详解
- 性能优化方法与实战
- 算子开发实践
课程
GEMM类算子调优
认证事项
- 1.考试仅支持电脑端操作
- 2.通过考试后需在10天内完成实名认证,逾期未完成实名认证将无法发放证书
- 3.考试及实名认证通过后24小时,可前往个人中心-我的微认证查看证书编号或下载电子证书
- 4.证书自颁布之日起2年内有效
- 5.为了确保您考取的微认证真实有效,且能充分发挥其对您的积极作用,维护认证的公正性和可信度,微认证证书支持在社区侧公开查询,可前往微认证证书查询使用证书编号进行查询。感谢您选择参加本认证,祝您取得优异成绩!



