FAQ
如何开启加速库的强制同步来定位报错
当出现undefinedsymbols: xxx这样的报错如何定位
为什么跑精度数据集的时候,最后的精度结果有浮动
LLM推理结果存在乱码
什么是确定性计算
为什么相同输入送入MindIE Server推理,输出存在一定的不确定性
为什么相同输入,组batch顺序不同,送入LLM模型推理输出不同
在昇腾上进行LLM推理,如何保证确定性计算
常见的LLM推理性能优化手段都有哪些
服务化拉起LLaMA2-13b-hf失败,显示coredump,报错显示和protobuf相关,怎么解决
服务化拉起失败,如何查看日志定位问题
纯模型推理时出现“out of memory, need block”报错
异步执行出现定位困难的报错
服务化加载模型后出现“Socket bind failed”报错
服务化拉起后发送请求无响应
拉起服务时,出现“pybind11::error_already_set”报错
拉起服务时core dump无报错日志
多卡服务化分布式推理时缺失环境变量MASTER_ADDR或MASTER_PORT
服务侧拉起模型时出现“Max retries exceeded with url”报错
拉起服务化时出现“Check_path: config.json failed”报错
PD分离场景,D节点出现“Pull kv failed”报错日志
父主题:
附录