MIE05E01000A
故障现象
申请显存时,使用的“num_npu_blocks”为负值。
故障原因
由于显存不足,在warm_up阶段会执行一次理论上最大请求的模型前向计算,计算出模型的workspace,然后将剩余的空间分配给“kv_cache”。
kv_cache的计算公式为:kv_cache = total_memory * memory_fraction - weight - workspace,这样会导致“num_npu_blocks”的计算结果为负数。
故障定位方法
检查参数“max_prefill_tokens”和“max_batch_size”给的值是否合理,尝试减小这两个值或者增大“memory_fraction”。
父主题: MindIE LLM错误码参考