特性介绍 安装部署场景中支持的特性名词解释如下。 NPU设备管理基于Kubernetes设备插件机制,支持NPU设备的发现和状态监测。 NPU优化调度根据NPU设备物理拓扑,选择合适的NPU设备,最大化发挥NPU性能。 断点续训在NPU故障和服务器故障时,自动重新调度训练任务到NPU健康的设备和节点上,继续执行训练任务。 推理卡故障重调度NPU故障时,自动重新调度推理任务到健康的设备上,继续执行推理任务。 最小业务系统在NPU故障和服务器故障时,自动重调度任务,使用仍然健康的设备,继续执行训练任务。 父主题: 典型安装场景