提供精度在线检测接口,供模型调用。主要通过[object Object]接口实现,该接口会对硬件做压力测试检测是否存在静默精度问题。
[object Object]
detect_type ([object Object]):可选参数,可支持配置为aic或hccs,分别表示硬件在线精度检测和HCCS链路在线精度检测。配置其他值时直接返回1(表示执行失败),默认值为aic。
[object Object]
接口返回值为
[object Object],代表错误类型,含义如下所示:0:在线精度检测通过。
1:在线精度检测用例执行失败。
2:在线精度检测不通过,硬件故障。
若报如下异常,则表示电压恢复失败,需参见手动恢复电压或reboot。
[object Object]
- 精度在线检测的使用需要修改用户的模型训练脚本,建议在训练开始前、结束后以及两个step之间调用,同时需要预留10G大小的内存供压测接口使用。
- HCCS链路在线检测(
[object Object])需要初始化全局通信域后才能进行调用。 - 精度在线检测用例,不支持在同一节点运行多个训练作业场景下使用,同时调压功能不支持算力切分场景。
- 不建议使用多线程运行在线精度检测用例。
[object Object]