(beta)torch_npu.npu.stress_detect
产品支持情况
| 产品 | 是否支持 |
|---|---|
| [object Object]Atlas A3 训练系列产品[object Object] | √ |
| [object Object]Atlas A2 训练系列产品[object Object] | √ |
功能说明
提供精度在线检测接口,供模型调用。主要通过StressDetect接口实现,该接口会对硬件做压力测试检测是否存在静默精度问题。
函数原型
[object Object]
参数说明
detect_type (str):可选参数,可支持配置为aic或hccs,分别表示硬件在线精度检测和HCCS链路在线精度检测。配置其他值时直接返回1(表示执行失败),默认值为aic。
说明:[object Object] 当
detect_type配置为hccs时,首先基于全局通信域创建本机所有卡的子通信域,然后对该子通信域进行HCCS链路压测。
返回值说明
接口返回值为
int,代表错误类型,含义如下所示:0:在线精度检测通过。
1:在线精度检测用例执行失败。
2:在线精度检测不通过,硬件故障。
若报如下异常,则表示电压恢复失败,需参见手动恢复电压或reboot。
[object Object]
约束说明
- 精度在线检测的使用需要修改用户的模型训练脚本,建议在训练开始前、结束后以及两个step之间调用,同时需要预留10G大小的内存供压测接口使用。
- HCCS链路在线检测(
detect_type="hccs")需要初始化全局通信域后才能进行调用。 - 精度在线检测用例,不支持在同一节点运行多个训练作业场景下使用,同时调压功能不支持算力切分场景。
- 不建议使用多线程运行在线精度检测用例。
调用示例
[object Object]