下表所示为不同产品支持的配置以及相关场景说明,此表中未列出的产品不支持此环境变量设置,若设置了不支持的环境变量,会使用默认值。
产品型号 |
支持的配置 |
约束说明 |
默认值 |
---|---|---|---|
Atlas 300I Duo 推理卡 |
AI_CPU |
|
HOST |
HOST |
无 |
||
Atlas 800T A2 训练服务器 Atlas 900 A2 PoD 集群基础单元 Atlas 200T A2 Box16异构子框 |
AIV |
该配置项仅支持这些产品的推理特性。 该配置项当前仅支持AllReduce、AlltoAll、AlltoAllV、AlltoAllVC、AllGather、ReduceScatter、AllGatherV、ReduceScatterV算子。
注意:
|
HOST |
HOST |
无 |
||
|
AI_CPU |
在超节点内与超节点间支持全量通信算子。 针对Reduce、ReduceScatter、AllReduce算子,数据类型仅支持int8、int16、int32、float16、float32、bfp16,且reduce的操作类型仅支持sum、max、min。其他通信算子支持的数据类型可参见集合通信接口参考。 |
AI_CPU |
AIV |
|
||
HOST |
不建议配置为“HOST”,配置为“HOST”存在不可预期行为。 |
export HCCL_OP_EXPANSION_MODE="HOST"
针对Atlas 800T A2 训练服务器/Atlas 900 A2 PoD 集群基础单元/Atlas 200T A2 Box16异构子框这些产品的推理特性:
1 2 3 4 5 |
[ERROR] KERNEL(5044,sklogd):2024-07-29-10:33:22.646.254 [klogd.c:247][257382.266115] [ascend] [ERROR] [devmm] [devmm_page_fault_d2h_query_flag 810] <kworker/u16:2:14887,14887> Host page fault send message fail.(hostpid=2131021; devid=0; vfid=0; ret=-22; va=0x12c700300000; hostpid=2131021; devid=0; vfid=0) [ERROR] KERNEL(5044,sklogd):2024-07-29-10:33:22.646.284 [klogd.c:247][257382.266124] [ascend] [ERROR] [devmm] [devmm_svm_device_fault 468] <kworker/u16:2:14887,14887> Vm fault failed. (hostpid=2131021; devid=0; vfid=0; ret=64; fault_addr=0x12c700300000; start=0x12c700300000) [ERROR] KERNEL(5044,sklogd):2024-07-29-10:33:22.659.429 [klogd.c:247][257382.282181] [ascend] [ERROR] [tsdrv] [ipc_fault_msg_para_check 309] <swapper/3:0> Invalid node id. (devid=0; node_type=100; node_id=40; node_num=25) ................ [ERROR] KERNEL(5044,sklogd):2024-07-29-10:33:24.874.211 [klogd.c:247][257384.473533] [ascend] [ERROR] [tsdrv] [tsdrv_hb_cq_callback 332] <kworker/0:0:20353> receive ts exception msg, call excep_code=0xb4060006, time=1722249204.850014098s, devid=0 tsid=0 |