定位流程 大模型推理精度问题定位流程如图1所示。 图1 精度问题定位流程图 排查由于配置错误导致的精度问题,可通过检查模型配置、模型结构、传参以及自定义算子实现等进行排查。如果配置无误,则选择存在明显精度问题的BadCase进一步分析定位。开启确定性计算,采集模型输出的logits。将logits和标杆数据进行比对。如果比对结果一致,则排查“后处理”采样问题,进一步定位是模型自身问题还是“后处理”问题。如果比对结果不一致,则采集模型输出异常处中间计算结果,逐层比对分析误差来源。