安全管理
防病毒软件例行检查
定期开展对集群的防病毒扫描,防病毒例行检查会帮助集群免受病毒、恶意代码、间谍软件以及恶意程序侵害,降低系统瘫痪、信息泄露等风险。可以使用业界主流防病毒软件进行防病毒检查。
日志管理
在日志管理中请关注如下两点。
- 检查系统是否能够限制单个日志文件的大小。
- 检查日志空间占满后,是否存在机制进行清理。
漏洞/功能问题修复
为保证生产环境的安全,降低被攻击的风险,请定期查看开源社区修复以下漏洞/功能问题。
- 操作系统漏洞/功能问题。
- 其他相关组件漏洞/功能问题。
集合通信安全风险提醒
目前Gloo、DataDist和HCCL的TLS认证功能存在安全风险:
- 默认发布的PyTorch的Gloo通信库暂不支持TLS认证功能。
- CANN的DataDist和HCCL通信暂不支持TLS认证功能。
风险消减措施建议如下:
- 建议用户自行编译和安装支持TLS的PyTorch。
- 参考CANN的安全加固文档进行通信安全加固。
- 建议用户在受控、可信的网络环境中部署推理服务,确保集合通信处于安全域内。
父主题: 安全管理与加固