在进行平台集成操作前,可先参考通过命令行使用断点续训,熟悉下发断点续训任务示例yaml的实现逻辑和参数说明,帮助用户更好地理解接下来的操作。
NFS需要用户根据使用情况进行目录隔离,NFS的随机读写性能必须能够在15分钟内保存完整的ckpt文件,建议用户使用专业的存储服务器,NFS具体性能要求给出如下参考。
当前已支持20+软件类故障及90+硬件类故障的检测。支持的故障类型请参见表1,详各类典型故障的示例说明可参考典型故障.xlsx。
故障类型 |
故障说明 |
||
---|---|---|---|
节点故障 |
包括节点状态丢失和节点硬件故障。
说明:
若节点的硬件故障导致节点宕机或重启,则NodeD无法检测到具体的故障类型并上报。 |
||
芯片故障 |
DCMI接口上报的芯片故障和设备网络探测工具hccn_tool检测到的芯片网络故障的故障码说明请参见芯片故障码参考文档章节。 |
||
参数面网络故障 |
包括芯片网络相关故障和总线设备故障。
|
||
业务面故障 |
训练任务异常退出,导致Pod的Status变为Failed状态。
说明:
可执行kubectl describe pod {pod名称} -n {NAMESPACE} |grep Status:命令,查看当前Pod的Status是否为Failed状态。回显示例如下:
|