CCAE智能运维,助力昇腾384超节点超可靠
发表于 2025/06/13
大规模集群管理和运维挑战
大规模计算集群由海量的硬件器件和服务构成,局部的不可用,会导致运行的作业中断。伴随着计算、网络、存储的跨域故障定位耗时长,集群可用度亟待提升。
1、集群运行前的隐患排查,业界方法普遍效率低
大规模组网情况下,手工配置连线易接错,接错问题人工排查困难。软件和固件升级也依赖手工配置,升级时间超过用户维护窗口期时,影响用户整体体验。零配置自动部署能力,支持用户高效开局,显得很重要。同时,资源的健康性、资源是否被非法占用、软件配置准确性、通信网络连通性,也是集群正式启动前需要排查风险,避免系统“带病盲跑”,造成算力性能下降。
2、当集群运行时出现故障,需要快速定位原因实现业务恢复
以光模块为例,大规模集群包含数万个光模块,光模块年失效率4‰。实际机房中发现,由于机房环境、施工质量难做到100%无尘,光模块脏污、松动是集群TOP硬件故障,直接影响业务质量,导致业务劣化或中断。光路故障涉及跨域定位,流程复杂,需网络和计算领域专业人员携带专业检测设备,到机房现场通过重插交叉验证判断故障,耗时通常数小时。
CCAE助力昇腾超节点长稳运行
为了应对上述运维挑战,昇腾超节点引入了CCAE(集群自智引擎)运维软件,助力超节点有效管理和快速除患排障。CCAE通过一键式健康检查、集群故障快速诊断、自动优雅隔离故障光模块、Pingmesh的静默丢包检测算法、ZTP零配置自动部署等特性,实现超节点健康长稳运行。
1、 支持70+全域软硬件关键检查项一键式检查,确保提前排除隐患
第一,CCAE提供快速健康评估特性,内置集群健康评估专家经验库,一键式启动算、网、存快速健康评估,5分钟提交检查结果,准确率90%,有效检查资源健康状态、非法资源占用、配置一致性和连通性。第二,CCAE提供深度健康评估特性,针对集群关键部件进行算力、功耗、带宽一键式性能压测,排查器件深层次故障风险,适用于新建集群开局检查、故障设备更换、备件更换检测等场景。
2、 支持光链路故障快速诊断,总线柜光链路优雅隔离、作业不中断
CCAE集群故障诊断特性,支持超节点状态监测、资源类故障定界、光链路连通性故障定界定位。基于对超节点所有光路统一检测,免人工分析,CCAE自动生成光模块脏污、松动、劣化故障信息,可以精准定界到光链路,明确指示脏污/松动问题和故障位置,自动发现和明确指示故障光模块器件。
进一步,面向总线柜光链路,CCAE通过光模块脏污松动识别算法自动感知光路故障后,提供异常光链路优雅隔离恢复功能。CCAE主动进行流量切换选路,并确保沿途端口流量排空后,之后提示工程师执行光模块清污或更换操作。待清污完成、光路恢复正常后,CCAE将启动修复的光链路,整个操作过程中作业业务不中断。
3、 支持基于Pingmesh的静默丢包检测,故障定位效率从天级提升到小时级
CCAE提供全网总线检测能力,通过对超节点内总线网络的分段检测,汇聚分析总线设备IP/拓扑等多维信息,识别故障根因,提供故障位置和修复建议,相关故障信息提交运维团队用于实现快速故障隔离和进一步的修复。
4、支持ZTP自动部署,超节点集群周级上线
基于总线详细设计(LLD)脚本自动化规划和部署技术,CCAE支持设备即插即用,优化开局体验,开局效率从40台总线设备/小时提升到200台总线设备/小时。与此同时,CCAE支持自动连纤检查,识别连纤错误,降低配置故障发生率。
CCAE超节点运维特性使用方法
方法1:CCAE软件包含可视化操作界面,提供超节点设备拓扑可视化,基于界面可操作实现故障光模块优雅隔离、静默丢包检测、ZTP部署等特性
方法2:CCAE通过北向API接口开放,支持快速和厂商系统及产品对接,用户以集成的方式获取CCAE的超节点运维特性。
API集成示范样例路径:
https://gitee.com/ccae-sdk