(beta)torch_npu.npu.stress_detect
说明:[object Object] 此接口为beta接口,属于实验性接口,部分场景下可能出现异常,请谨慎使用此接口。
函数原型
[object Object]
功能说明
提供硬件精度在线检测接口,供模型调用。主要通过StressDetect接口实现,该接口会对硬件做压力测试检测是否存在静默精度问题。
输出说明
返回值为int,代表错误类型,含义如下所示:
0:在线硬件精度检测通过。
1:在线硬件精度检测用例执行失败。
2:在线硬件精度检测不通过,硬件故障。
runtime error:电压恢复失败。
约束说明
- 硬件精度在线检测的使用需要修改用户的模型训练脚本,建议在训练开始前、结束后、两个step之间调用,同时需要预留10G大小的内存供压测接口使用。
- 硬件精度在线检测用例仅支持[object Object]Atlas A2 训练系列产品[object Object]、[object Object]Atlas A3 训练系列产品[object Object],不支持在同一节点运行多个训练作业,同时调压功能不支持算力切分场景;不建议使用多线程运行在线精度检测用例。
支持的型号
- [object Object]Atlas A2 训练系列产品[object Object]
- [object Object]Atlas A3 训练系列产品[object Object]
调用示例
[object Object]