昇腾社区首页
中文
注册

(beta)torch_npu.npu.stress_detect

说明:[object Object] 此接口为beta接口,属于实验性接口,部分场景下可能出现异常,请谨慎使用此接口。

函数原型

[object Object]

功能说明

提供硬件精度在线检测接口,供模型调用。主要通过StressDetect接口实现,该接口会对硬件做压力测试检测是否存在静默精度问题。

输出说明

返回值为int,代表错误类型,含义如下所示:

  • 0:在线硬件精度检测通过。

  • 1:在线硬件精度检测用例执行失败。

  • 2:在线硬件精度检测不通过,硬件故障。

  • runtime error:电压恢复失败。

约束说明

  1. 硬件精度在线检测的使用需要修改用户的模型训练脚本,建议在训练开始前、结束后、两个step之间调用,同时需要预留10G大小的内存供压测接口使用。
  2. 硬件精度在线检测用例仅支持[object Object]Atlas A2 训练系列产品[object Object]、[object Object]Atlas A3 训练系列产品[object Object],不支持在同一节点运行多个训练作业,同时调压功能不支持算力切分场景;不建议使用多线程运行在线精度检测用例。

支持的型号

  • [object Object]Atlas A2 训练系列产品[object Object]
  • [object Object]Atlas A3 训练系列产品[object Object]

调用示例

[object Object]