环境变量配置错误(EI0001)
问题现象
执行日志报错:EI0001 "Environment variable [*** ] is invalid",其中“***”是报错的环境变量名称,报错信息示例如下图所示。

原因分析
环境变量配置有问题,通常是参数超过可配置范围或在识别范围以外,报错信息关键字及含义如表1所示。
| 
          报错信息关键字  | 
        
          含义  | 
       
|---|---|
| 
          RankIpFamily rank[ ] device ip family[ ] is not same with others[ ].  | 
        
          IPv4和IPv6混用。  | 
       
| 
          HCCL_CONNECT_TIMEOUT it should be a number greater than or equal to 120s and less than or equal to 7200s  | 
        
          HCCL_CONNECT_TIMEOUT的取值不在允许范围内。  | 
       
| 
          HCCL_INTRA_PCIE_ENABLE or HCCL_INTRA_ROCE_ENABLE HCCL_INTRA_PCIE_ENABLE and HCCL_INTRA_ROCE_ENABLE cannot be both configured to 1  | 
        
          HCCL_INTRA_PCIE_ENABLE和HCCL_INTRA_ROCE_ENABLE两配置互斥,不能同时配置为1。  | 
       
| 
          HCCL_WHITELIST_DISABLE It must be 0 or 1.  | 
        
          HCCL_WHITELIST_DISABLE的取值不在允许范围内。  | 
       
| 
          HCCL_WHITELIST_FILE Please check env config  | 
        
          HCCL_WHITELIST_FILE配置有问题,通常为HCCL通信白名单配置文件内容异常,或者文件不存在。  | 
       
| 
          HCCL_IF_IP it should be ip[ ]  | 
        
          HCCL_IF_IP配置的IP格式不正确。  | 
       
| 
          HCCL_SOCKET_IFNAME Please check env config  | 
        
          HCCL_SOCKET_IFNAME配置格式不正确,请确认“,”位置。  | 
       
| 
          HCCL_SOCKET_FAMILY it should be AF_INET or AF_INET6  | 
        
          HCCL_SOCKET_FAMILY配置参数不正确,需要是AF_INET或者AF_INET6。  | 
       
| 
          HCCL_IF_BASE_PORT Value range[0,65520]  | 
        
          HCCL_IF_BASE_PORT的取值不在允许范围内。  | 
       
| 
          HCCL_ALGO expect: levelX:algo1;levelY:algo2  | 
        
          HCCL_ALGO配置错误,通常为格式不符合要求、长度异常或内容不符合预期(重复配置、字段不正确)。  | 
       
| 
          HCCL_RDMA_TC Value range[0, 255], Must be a multiple of 4  | 
        
          HCCL_RDMA_TC配置错误,通常为数值超范围、非数字、长度过长等。  | 
       
| 
          HCCL_RDMA_SL Value range[0, 7]  | 
        
          HCCL_RDMA_SL的取值不在允许范围内。  | 
       
| 
          HCCL_RDMA_TIMEOUT Value range[5, 24]  | 
        
          HCCL_RDMA_TIMEOUT的取值不在允许范围内。  | 
       
| 
          HCCL_RDMA_RETRY_CNT Value range[1, 7]  | 
        
          HCCL_RDMA_RETRY_CNT的取值不在允许范围内。  | 
       
| 
          HCCL_BUFFSIZE Value should be equal to or greater than 1(MB).  | 
        
          HCCL_BUFFSIZE的取值不在允许范围内。  | 
       
| 
          HCCL_DETERMINISTIC Value should be true or false.  | 
        
          HCCL_DETERMINISTIC的取值不在允许范围内。  | 
       
| 
          HCCL_ENTRY_LOG_ENABLE It must be 0 or 1.  | 
        
          HCCL_ENTRY_LOG_ENABLE的取值不在允许范围内。  | 
       
| 
          HCCL_INTER_HCCS_DISABLE Value should be true or false.  | 
        
          HCCL_INTER_HCCS_DISABLE的取值不在允许范围内。  | 
       
| 
          HCCL_OP_EXPANSION_MODE it should be "AI_CPU"  | 
        
          HCCL_OP_EXPANSION_MODE配置只能填AI_CPU  | 
       
| 
          HCCL_EXEC_TIMEOUT it should be a number greater than or equal to 0s and less than or equal to  | 
        
          HCCL_EXEC_TIMEOUT配置不在取值范围内  | 
       
| 
          CM_CHIEF_IP it should be an available ip.  | 
        
          CM_CHIEF_IP配置的IP不可用。  | 
       
| 
          CM_CHIEF_PORT it should be a unsigned number less than the max port num  | 
        
          CM_CHIEF_PORT的取值不在允许范围内。  | 
       
| 
          CM_CHIEF_DEVICE it should be a unsigned number less than the max device num  | 
        
          CM_CHIEF_DEVICE的取值不在允许范围内。  | 
       
| 
          CM_WORKER_IP it should be an available ip.  | 
        
          CM_WORKER_IP配置的IP不可用。  | 
       
| 
          HCCL_WHITELIST_FILE HCCL_WHITELIST_DISABLE is [0] but HCCL_WHITELIST_FILE is not set  | 
        
          HCCL_WHITELIST_DISABLE配置为0,HCCL_WHITELIST_FILE却没有设置。  | 
       
| 
          HCCL_WHITELIST_FILE hccl whitelist load config file[ ] failed.  | 
        
          HCCL_WHITELIST_FILE参数指定的文件打开失败,请确认路径是否正确。  | 
       
解决方法
确认报错提示的“环境变量”配置是否正确,并参见表1的报错信息进行修改。