样例名称 |
样例获取 |
样例介绍 |
---|---|---|
LLaMA 2模型以图模式进行DeepSpeed分布式推理样例 |
访问TorchAir仓中npu_tuned_model/llm/llama目录,阅读README.md了解详情。 |
该样例介绍了LLaMA 2模型迁移、优化、执行过程,详细阐述了各种模型优化方法,如固定KV Cache大小、QKV融合、小算子替换为融合算子等方法。 优化后的模型,可供开发者直接进行应用开发,也可为自定义的大模型进行NPU迁移提供参考。 |
LLaMA 2模型分离部署迁移样例 |
访问TorchAir仓中npu_tuned_model/llm/llama/benchmark/pd_separate目录,阅读README.md了解详情。 |
该样例介绍了LLaMA 2模型脚本如何迁移为可以全量和增量分离部署的过程,详细阐述了脚本改造过程,包括如何修改脚本保证一次调用只会推理一次、如何拆分为全量/增量执行脚本、如何调整预处理/后处理代码等。 全量和增量模型分离部署后,可以减少计算资源的浪费,还可以提升模型在单位时间内处理用户请求的数量,即模型吞吐量。 |