PyTorch提供了如下通用调度优化建议:
此环境变量用于优化task queue一级流水负载,减少dequeue唤醒时间。
此环境变量一般用于以下场景:host-bound严重网络场景。
使用方法如下:
export TASK_QUEUE_ENABLE=2
绑核功能通过绑定指定CPU核心和设备指定卡,来减少核心切换开销,优化调度性能。
使用方法如下:
// 当前仅有方案1:将CPU核数按环境卡数平均分配并绑核,如192核8卡场景, // 0卡会绑定至0-23,1卡绑定至24-47,以此类推。 export CPU_AFFINITY_CONF=1