昇腾社区首页
中文
注册

NPU直通虚拟机场景,多卡执行p2p测试或运行模型失败

问题描述

物理机OS页表非4K场景下,使用QEMU 4.1.0版本。虚拟机下多卡运行大模型时,虚拟机暂停(Pause)或是报错退出,日志中有p2p不通相关报错。以Kylin V10 SP3为例,报错信息显示如下。

[root@localhost ~]# virsh list --all
 Id   Name       State
---------------------------
 -    kylin   paused

可能原因

开源的QEMU 4.1.0版本中,将OS页表大小固定为4K(4096)处理。OS页表大小非4K时使用该版本QEMU可能导致虚拟机中出现p2p相关异常。

通过“getconf PAGESIZE”命令查询Kylin V10 SP3的页表大小为64K(65536)。

[root@localhost ~]# getconf PAGESIZE
65536

解决方案

请参考7.c修改QEMU源码后重新构建并安装QEMU。