训练前准备
- 下载数据集
- 进入cifar10_download_and_extract.py所在路径
cd ~/MindstudioProjects/MyTraining-tensorflow/models_msft/models_npu_*/official/resnet/
- 执行如下命令下载数据集
python3 cifar10_download_and_extract.py
数据集默认下载到/tmp/cifar10_data路径下。
- 进入cifar10_download_and_extract.py所在路径
- 准备单Device的资源信息配置文件。
单Device的资源信息配置文件中需包含一个Device资源,文件名举例:rank_table_1p.json,配置文件示例如下(实际调用时,需删除json的注释信息):
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
{ "server_count":"1", //server数目,此例中,只有一个AI server "server_list": [ { "device":[ { "device_id":"2", //昇腾AI处理器物理ID,取值范围:[0-7]。以指定2卡为例 "device_ip":"192.168.1.8", //昇腾AI处理器集成网卡IP,可执行cat /etc/hccn.conf获取网卡IP,查询到的address_xx(xx对应device_id)即为网卡IP "rank_id":"0" // rank的标识,rankID从0开始 } ], "server_id":"10.0.0.10" //server标识,以点分十进制表示IP字符串 } ], "status":"completed", // ranktable可用标识,completed为可用 "version":"1.0" // ranktable模板版本信息,当前必须为"1.0" }