已修复问题
问题一
问题描述 |
MS模型bertlarge 8卡训练失败,报错Call GE CompileGraph Failed |
---|---|
严重级别 |
严重 |
根因分析 |
不同版本的编译器可能不包含type_traits头文件 |
解决方案 |
兼容各编译器版本,不使用type_traits库 |
修改影响 |
修复问题 |
问题二
问题描述 |
PyTorch模型bertlarge 训练结束后,进程不退出 |
---|---|
严重级别 |
严重 |
根因分析 |
BlockPool先于BlockCache析构,所以BlockCache中缓存的内存对象都已经被释放,BlockCache析构时将内存对象归还给BlockPool时访问到了野指针。 |
解决方案 |
NA |
修改影响 |
修复问题 |
问题三
问题描述 |
MS的resnet50模型,TF的meituan、tencent模型,训练失败,报错Tiling func of op_type Assign failed;错误码E90003 |
---|---|
严重级别 |
严重 |
根因分析 |
适配算子修改函数接口校验条件,算子so中注册tiling个数为0时不判错 |
解决方案 |
算子so中注册tiling个数为0时不判错 |
修改影响 |
修复问题 |
父主题: 已知问题和已修复问题