已修复问题
问题一
问题描述 |
contronet带deepspeed4集群64p精度5000步训练时,过程中报错 Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. |
---|---|
严重级别 |
严重 |
根因分析 |
mean和rstd计算流漏插同步指令导致 |
解决方案 |
mean和rstd计算流添加同步指令 |
修改影响 |
修复问题 |
问题二
问题描述 |
支持kvCache,atb FA增量场景部分参数传入uint32数据类型 |
---|---|
严重级别 |
一般 |
根因分析 |
算子host侧 对uint32进行了拦截,导致异常报错 |
解决方案 |
开放kvCache 部分入参对uint32的支持 |
修改影响 |
修复问题 |
问题三
问题描述 |
无mask场景精度异常 |
---|---|
严重级别 |
一般 |
根因分析 |
未能拦截mask空指针,无mask的情况还是走进了gmSrcm!=nullptr的分支 |
解决方案 |
将无mask情况改为maskType进行判断,将mask偏移值计算使用maskStride实现 |
修改影响 |
修复问题 |
问题四
问题描述 |
pad_v3_grad 算子在reflect模式下存在精度问题 |
---|---|
严重级别 |
一般 |
根因分析 |
输入shape后两维较小时,会有精度问题。原因是该场景下某个搬运的地方burst未根据输入dtype设置 |
解决方案 |
该场景下某个搬运的地方burst根据输入dtype设置 |
修改影响 |
修复问题 |
问题五
问题描述 |
aclnnrepeatinterintwithdim对于特定shape报错 |
---|---|
严重级别 |
严重 |
根因分析 |
使用if_scope对表达式的值是否为0进行判断时,仅判断分子是否为0,导致功能报错 |
解决方案 |
1、使用if_scope对表达式的值是否为0进行判断时,对完整表达式进行判断 2、读取tiling数据时,仅使用data_move接口 |
修改影响 |
修复问题 |
父主题: 已知问题和已修复问题