昇腾故障案例详情页

绑定训练进程到指定CPU

更新时间: 2022/07/26

暂无评分

问题信息

问题来源产品大类产品子类关键字
官方模型训练TensorFlow多P场景、Host CPU

问题现象描述

多P训练场景,为了使Host CPU调度均匀,从而进一步提高训练性能。

原因分析

用户可以参考如下步骤将训练进程绑定到指定的CPU上,用于平均分配Host CPU调度数。下面以8P举例说明。

解决措施

  1. 查询Host CPU个数,例如:Total CPU =96,如下图所示:

  2. 计算每个训练进程分配的Host CPU调度数n。

    n = Total CPU / 8 = 12。

  3. 修改训练进程启动脚本,在拉起训练脚本前,使用“taskset -c ”绑定进程到指定的Host CPU。例如:
    Device0:
    taskset -c 0-11 python3.7 /home/test/xxx.py /
    Device7:
    taskset -c 84-95 python3.7 /home/test/xxx.py /

本页内容

该页面对您有帮助吗?
我要评分