NPU直通虚拟机场景,多卡执行p2p测试或运行模型失败
问题描述
物理机OS页表非4K场景下,使用QEMU 4.1.0版本。虚拟机下多卡运行大模型时,虚拟机暂停(Pause)或是报错退出,日志中有p2p不通相关报错。以Kylin V10 SP3为例,报错信息显示如下。
[root@localhost ~]# virsh list --all Id Name State --------------------------- - kylin paused
可能原因
开源的QEMU 4.1.0版本中,将OS页表大小固定为4K(4096)处理。OS页表大小非4K时使用该版本QEMU可能导致虚拟机中出现p2p相关异常。
通过“getconf PAGESIZE”命令查询Kylin V10 SP3的页表大小为64K(65536)。
[root@localhost ~]# getconf PAGESIZE 65536
解决方案
请参考7.c修改QEMU源码后重新构建并安装QEMU。
父主题: FAQ