PyTorch在内存上基于eager模式实现，eager模式的特点是如果没有必要，不会主动释放已经申请的内存，同时，PyTorch默认模式下是整块申请内存，因此，很容易出现碎片化的内存，而当模型当前内存不足够时，会触发内存重整操作，即将碎片化内存（包括之前申请但并未被表示的内存块）整理，得到大块连续内存。如果重整得到的内存能够满足模型训练需要，那么训练就会进行下去，但是这种内存重整操作需要花费大量时间，频繁触发内存重整操作会对模型性能产生很大影响。因此，本文就内存问题提出一些针对化建议。

内存与性能的联系