FAQ
Hook的index顺序改变导致训练异常
数据集shuffle数量过大导致训练超时
数据预处理中存在资源类算子导致训练异常
网络中存在ResourceConditionalAccumulator等算子导致训练性能不达标
变量初始化和数据预处理初始化在同一子图导致训练异常
uint8和quint8加减溢出
网络调测时ReduceSum算子性能差
使用NPU Loss Scale优化器后,训练不收敛
混合精度场景下,由于极端模型超参导致算子溢出
多优化器共用导致浮点异常检测存在问题
开启memory_optimization后发生core dump
NPULossScaleOptimizer优化器使用常见问题
V1版本控制流算子导致内存不足
动态shape网络执行时报v1控制流算子不支持的错误
数据预处理使用tf.keras.backend.zero生成变量,训练报错变量未初始化
执行分布式训练时,出现get rank id error错误
参与集合通信的服务器TLS信息不一致,HCCL初始化失败