torch_npu.matmul_checksum
产品支持情况
产品 | 是否支持 |
---|---|
Atlas A2 训练系列产品 | √ |
Atlas 训练系列产品 | √ |
功能说明
提供基于原生torch.matmul和Tensor.matmul接口的aicore错误硬件故障接口,内部执行矩阵计算结果校验过程,并对校验误差和实时计算的校验门限进行对比,判断校验误差是否超越门限,若超越则认为发生了aicore错误。
函数原型
[object Object]
参数说明
- a (
Tensor
):必选输入,进行原生matmul计算的输入input
。 - b (
Tensor
):必选输入,进行原生matmul计算的输入other
。 - c (
Tensor
):必选输入,原生matmul计算的输出out
。
返回值说明
Tensor
返回NPU上的bool标量,结果为True,标识存在aicore错误的硬件故障。
约束说明
该接口仅支持bf16格式,且device为NPU的场景。
调用示例
[object Object]