当集群信息中存在Device网口通信链路不稳定、出现网络拥塞的情况时,Device日志中会存在“error cqe”的打印,我们称这种错误为“RDMA ERROR CQE”错误。
当前版本,此接口仅支持查询通信域内是否存在“RDMA ERROR CQE”的错误。
此接口为同步接口,即接口调用后需要等待返回结果。
HcclResult HcclGetCommAsyncError(HcclComm comm, HcclResult *asyncError)
参数名 |
输入/输出 |
描述 |
---|---|---|
comm |
输入 |
需要查询是否存在错误信息的通信域。 HcclComm类型的定义可参见HcclComm。 |
asyncError |
输出 |
|
参见HcclResult类型,当前版本仅返回HCCL_E_REMOTE错误类型。
Atlas 300I Duo 推理卡