可使用msprof op对MC2算子进行调优,并生成mc2_trace.json和visualize_data.bin文件,能够直观看到MC2算子的通算运行情况、指令耗时等信息,协助开发者识别通算瓶颈。
在Chrome浏览器中输入“chrome://tracing”地址,并将通过msprof op生成指令流水图文件(mc2_trace.json)拖到空白处打开,键盘上输入快捷键(W:放大,S:缩小,A:左移,D:右移)可进行查看。关键字段说明如表1。
字段名
字段功能
AI CORE
MC2算子在AI Core上的整体运行情况。
AI CPU
MC2算子在AI CPU上的整体运行情况。
TURN
MC2算子在AI CPU上不同通信轮次的流水。
AIC BLOCK
MC2算子在AI Core各cube核上的整体运行情况和HCCL接口调用情况。
AIV BLOCK
MC2算子在AI Core各vector核上的整体运行情况和HCCL接口调用情况。
HCCL
MC2算子在多卡间的集合通信流水。
HCCL TASK
MC2算子在多卡间的集合通信任务执行流水。
MC2算子支持对 Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件 的AllReduce、AllGather、ReduceScatter、AlltoAll接口及 Atlas A3 训练系列产品/Atlas A3 推理系列产品 的AllGather、ReduceScatter、AlltoAllV接口进行调用,具体介绍请参见Hccl中的“ 高阶API > Hccl > Hccl”章节。