昇腾社区首页
中文
注册
开发者
下载

(beta)torch_npu.npu.stress_detect

产品支持情况

产品 是否支持
[object Object]Atlas A3 训练系列产品[object Object]
[object Object]Atlas A2 训练系列产品[object Object]

功能说明

提供精度在线检测接口,供模型调用。主要通过StressDetect接口实现,该接口会对硬件做压力测试检测是否存在静默精度问题。

函数原型

[object Object]

参数说明

detect_type (str):可选参数,可支持配置为aic或hccs,分别表示硬件在线精度检测和HCCS链路在线精度检测。配置其他值时直接返回1(表示执行失败),默认值为aic。

说明:[object Object] 当detect_type配置为hccs时,首先基于全局通信域创建本机所有卡的子通信域,然后对该子通信域进行HCCS链路压测。

返回值说明

  • 接口返回值为int,代表错误类型,含义如下所示:

    • 0:在线精度检测通过。

    • 1:在线精度检测用例执行失败。

    • 2:在线精度检测不通过,硬件故障。

  • 若报如下异常,则表示电压恢复失败,需参见手动恢复电压或reboot。

    [object Object]

约束说明

  • 精度在线检测的使用需要修改用户的模型训练脚本,建议在训练开始前、结束后以及两个step之间调用,同时需要预留10G大小的内存供压测接口使用。
  • HCCS链路在线检测(detect_type="hccs")需要初始化全局通信域后才能进行调用。
  • 精度在线检测用例,不支持在同一节点运行多个训练作业场景下使用,同时调压功能不支持算力切分场景。
  • 不建议使用多线程运行在线精度检测用例。

调用示例

[object Object]