aclnnSilentCheck
产品支持情况
功能说明
算子功能: SilentCheck算子功能主要根据输入特征值(val),与绝对阈值、相对阈值比较,来识别是否触发静默检测故障。同时支持通过框架侧传入的环境变量(npuAsdDetect)控制故障时是否触发告警或断点续训,默认情况(即npuAsdDetect=1时)只打印日志。
计算公式:
- 如果当前输入
[object Object]为inf/nan,或val超过绝对阈值[object Object],或跳变超过相对阈值[object Object],则识别为L1故障;若环境变量[object Object]为2,则打印日志并触发断点续训;若环境变量[object Object]为1,则更新[object Object]与[object Object]后正常返回。 - 如果当前输入
[object Object]超过绝对阈值[object Object],或跳变超过相对阈值[object Object],则识别为L2故障;打印告警并更新[object Object]与[object Object]后正常返回。 - 如果既没有触发L1故障,又没有触发L2告警,则为正常情况:若
[object Object]为3,则打印特征值;否则更新[object Object]与[object Object]后正常返回。 - 其中
[object Object]为[pre_val, min_val, max_val],代表[上次检测val,历史最小val,历史最大val];[object Object]为检测次数,每次检测加一。
- 如果当前输入
函数原型
每个算子分为,必须先调用“aclnnSilentCheckGetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器,再调用“aclnnSilentCheck”接口执行计算。
[object Object]
[object Object]
aclnnSilentCheckGetWorkspaceSize
aclnnSilentCheck
约束说明
- 确定性计算:
- aclnnSilentCheck默认确定性实现。
调用示例
[object Object]