FAQ
如何获取fp_point与bp_point
绑定训练进程到指定CPU
网络内存分配失败导致训练异常
变量内存超限导致训练异常
Hook的index顺序改变导致训练异常
数据集shuffle数量过大导致训练超时
数据预处理中存在资源类算子导致训练异常
网络中存在ResourceConditionalAccumulator等算子导致训练性能不达标
数据预处理中存在tf.Variable需要手工修改
变量初始化和数据预处理初始化在同一子图导致训练异常
uint8和quint8加减溢出
开启AI CPU Cast算子自动插入特性
网络调测时ReduceSum算子性能差
使用NPU Loss Scale优化器后,训练不收敛
tf.is_finite接口手工迁移
tf.train.batch接口手工迁移
安装7.3.0版本gcc
仅在某个Device上保存Checkpoint数据
混合精度场景下,由于极端模型超参导致算子溢出
多优化器共用导致浮点异常检测存在问题
开启memory_optimization后发生core dump
NPULossScaleOptimizer优化器使用常见问题
V1版本控制流算子导致内存不足
数据预处理使用tf.keras.backend.zero生成变量,训练报错变量未初始化