下载
中文
注册

CCAE助力昇腾算力高可靠、高可用

关键特性

集群健康评估
CCAE提供API接口,可对集群软硬件环境进行健康评估并排除潜在隐患,用户可借助API开发工具快速构建所需的自定义应用
特性能力
快速健康评估:对算/网/存跨域的软硬件及环境隐患进行一键式快速健康检查
深度健康评估:提供在集群开局检查、故障设备排障、备件更换检测环节的资源深度健康评估
API集成
用户基于API开发应用
一键巡检 主动预防 其它应用
集群故障诊断
CCAE提供API接口,可对集群资源类故障进行主动诊断,用户可借助API开发工具快速构建所需的自定义应用
特性能力
光路故障诊断:分钟级检测和识别光路脏污、光模块松动
光路故障定界:自动判定光路故障发生准确位置,无需现场测试,缩短现场处置时长
API集成
用户基于API开发应用
故障诊断助手 维修指导APP 其它应用
作业质量保障
CCAE提供API接口,可对集群作业故障、作业性能劣化进行主动诊断,用户可借助API开发工具快速构建所需的自定义应用
特性能力
作业类故障诊断:实时主动感知作业故障,如作业卡死、AI core error等,自动分析故障节点,已知故障诊断准确率90%
作业劣化诊断:实时主动感知作业劣化,自动分析劣化点,自动定界到劣化节点
API集成
用户基于API开发应用
作业快速恢复 作业优化大师 其它应用
集群数字地图
CCAE提供API接口,可提供集群数字地图的功能,用户可借助API开发工具快速构建所需的自定义应用
特性能力
设备拓扑可视:提供计算、网络、存储设备的连接关系
KPI可视:及时获取性能、资源类关键指标
故障拓扑可视:集群资源与故障关联,展示设备异常
API集成
用户基于API开发应用
资源可视化大屏APP 查看故障链路信息APP 其它应用

扩展资源

获取开发工具
例如:开发者可利用CCAE的开放OpenAPI,通过DIY生成一个属于自己的手机APP,可以根据需要实时查看集群拓扑关联信息进行昇腾资源的就近调度