昇腾故障案例详情页

MindSpore报错Framework ERROR: Init hccl graph adapter failed

更新时间: 2024/02/22

暂无评分

问题信息

问题来源产品大类产品子类关键字
官方模型训练MindSporeFramework ERROR

问题现象描述

MindSpore运行分布式模型时报错:

RuntimeError: Ascend collective communication initialization failed.

Framework Error Message: Init hccl graph adapter failed.

原因分析

Framework Error 报错 Init hccl graph adapter failed,应是cann hccl相关组件报错。

排查方法

1.在/root/ascend/log/plog路径下,输入grep -rn 'ERROR',提取plog下所有文件含[ERROR]的信息。

2.发现fwkacllib加载失败。

解决措施

1. 使用CANN包的环境变量配置脚本。

source set_env.sh

2. 单点添加环境变量。

export LD_LIBRARY_PATH=fwkacllib/lib64:$LD_LIBRRARY_PATH

本页内容

该页面对您有帮助吗?
我要评分