安装部署场景中支持的特性说明如下。
NPU设备管理
基于Kubernetes设备插件机制,支持NPU设备的发现和状态监测。
NPU优化调度
根据NPU设备物理拓扑,选择合适的NPU设备,最大化发挥NPU性能。
断点续训
在NPU故障和服务器故障时,自动重新调度训练任务到NPU健康的设备和节点上,继续执行训练任务。
推理卡故障重调度
NPU故障时,自动重新调度推理任务到健康的设备上,继续执行推理任务。
最小业务系统
在NPU故障和服务器故障时,自动重调度任务,使用仍然健康的设备,继续执行训练任务。