当前位置：移动技术网 > IT编程>脚本编程>Python > keras多显卡训练方式

keras多显卡训练方式

2020年06月18日 | 移动技术网IT编程 | 我要评论

个性网女生头像,小白兔的资料,中翌全球购

使用keras进行训练，默认使用单显卡，即使设置了os.environ['cuda_visible_devices']为两张显卡，也只是占满了显存，再设置tf.gpuoptions(allow_growth=true)之后可以清楚看到，只占用了第一张显卡，第二张显卡完全没用。

要使用多张显卡，需要按如下步骤：

（1）import multi_gpu_model函数：from keras.utils import multi_gpu_model

（2）在定义好model之后，使用multi_gpu_model设置模型由几张显卡训练，如下：

model=model(...) #定义模型结构
model_parallel=multi_gpu_model(model,gpu=n) #使用几张显卡n等于几
model_parallel.compile(...) #注意是model_parallel，不是model

通过以上代码，model将作为cpu上的原始模型，而model_parallel将作为拷贝模型被复制到各个gpu上进行梯度计算。如果batchsize为128，显卡n=2，则每张显卡单独计算128/2=64张图像，然后在cpu上将两张显卡计算得到的梯度进行融合更新，并对模型权重进行更新后再将新模型拷贝到gpu再次训练。

（3）从上面可以看出，进行训练时，仍然在model_parallel上进行：

model_parallel.fit(...) #注意是model_parallel

（4）保存模型时，model_parallel保存了训练时显卡数量的信息，所以如果直接保存model_parallel的话，只能将模型设置为相同数量的显卡调用，否则训练的模型将不能调用。因此，为了之后的调用方便，只保存cpu上的模型，即model:

model.save(...) #注意是model，不是model_parallel

如果用到了callback函数，则默认保存的也是model_parallel（因为训练函数是针对model_parallel的），所以要用回调函数保存model的话需要自己对回调函数进行定义：

class owncheckpoint(keras.callbacks.callback):
 def __init__(self,model):
  self.model_to_save=model
 def on_epoch_end(self,epoch,logs=none): #这里logs必须写
  self.model_to_save.save('model_advanced/model_%d.h5' % epoch)

定以后具体使用如下：

checkpoint=owncheckpoint(model)
model_parallel.fit_generator(...,callbacks=[checkpoint])

这样就没问题了！

补充知识：keras.fit_generator及多卡训练记录

1.环境问题

使用keras，以tensorflow为背景，tensorflow1.14多卡训练会出错 python3.6

2.代码

2.1

os.environ["cuda_device_order"] = "pci_bus_id"
os.environ['cuda_visible_devices'] = '4,5'

2.2 自定义generator函数

def img_image_generator(path_img, path_lab, batch_size, data_list):
 while true:
 # 'train_list.csv'
 file_list = pd.read_csv(data_list, sep=',',usecols=[1]).values.tolist()
 file_list = [i[0] for i in file_list]
 cnt = 0
 x = []
 y1 = []
 for file_i in file_list:
 x = cv2.imread(path_img+'/'+file_i, cv2.imread_grayscale)
 x = x.astype('float32')
 x /= 255.
 y = cv2.imread(path_lab+'/'+file_i, cv2.imread_grayscale)
 y = y.astype('float32')
 y /= 255.
 x.append(x.reshape(256, 256, 1))
 y1.append(y.reshape(256, 256, 1))
 cnt += 1
 if cnt == batch_size:
 cnt = 0
 yield (np.array(x), [np.array(y1), np.array(y1)])
 x = []
 y1 = []

2.3 函数调用及训练

 generator_train = img_image_generator(path1, path2, 4, pathcsv_train)
 generator_test= img_image_generator(path1, path2, 4, pathcsv_test)
 model.fit_generator(generator_train, steps_per_epoch=237*2, epochs=50, callbacks=callbacks_list, validation_data=generator_test, validation_steps=60*2)

3. 多卡训练

3.1 复制model

model_parallel = multi_gpu_model(model, gpus=2)

3.2 checkpoint 定义

class parallelmodelcheckpoint(modelcheckpoint):
  def __init__(self, model, filepath, monitor='val_out_final_score', verbose=0,\
   save_best_only=false, save_weights_only=false, mode='auto', period=1):
   self.single_model = model 
   super(parallelmodelcheckpoint, self).__init__(filepath, monitor, verbose, save_best_only, save_weights_only, mode, period)
  
  def set_model(self, model):
   super(parallelmodelcheckpoint, self).set_model(self.single_model)

使用

model_checkpoint = parallelmodelcheckpoint(model=model, filepath=filepath, monitor='val_loss',verbose=1, save_best_only=true, mode='min')

3.3 注意的问题

保存模型是时候需要使用以原来的模型保存，不能使用model_parallel保存

以上这篇keras多显卡训练方式就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持移动技术网。

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

新手学习Python2和Python3中print不同的用法

在python2和python3中都提供print()方法来打印信息,但两个版本间的print稍微有差异主要体现在以下几个方面：1.python3中print是... [阅读全文]
Python基于os.environ从windows获取环境变量

安装python之后，我们往往面临这样一个问题，在命令行输入“python”，竟然出错，难道是没有安装成功吗？非也，其实是你的系统环境变量没有设置好。今天，小编... [阅读全文]
keras实现调用自己训练的模型,并去掉全连接层

其实很简单from keras.models import load_modelbase_model = load_model('model_resenet.h... [阅读全文]
python中def是做什么的

python使用def开始函数定义，紧接着是函数名，括号内部为函数的参数，内部为函数的具体功能实现代码，如果想要函数有返回值, 在expressions中的逻... [阅读全文]
Python xlwt模块使用代码实例

简介写入excle文档安装：pip3 install xlwt导入：import xlwtxlrd 模块方法写入案例import xlwt# 创建对象，设置编码... [阅读全文]
Keras之自定义损失(loss)函数用法说明

在keras中可以自定义损失函数，在自定义损失函数的过程中需要注意的一点是，损失函数的参数形式，这一点在keras中是固定的，须如下形式：def my_loss... [阅读全文]
Python xlrd模块导入过程及常用操作

简介读取excle文档，支持xls，xlsx格式安装：pip3 install xlrd导入：import xlrdxlrd 模块方法读取excelfile =... [阅读全文]
keras打印loss对权重的导数方式

notes怀疑模型梯度爆炸，想打印模型 loss 对各权重的导数看看。如果如果fit来训练的话，可以用keras.callbacks.tensorboard实现... [阅读全文]
keras 使用Lambda 快速新建层添加多个参数操作

keras许多简单操作，都需要新建一个层，使用lambda可以很好完成需求。# 额外参数def normal_reshape(x, shape): return... [阅读全文]
JAVA及PYTHON质数计算代码对比解析

java 实现class primenumber{public static void main(string[] args) {long start=syst... [阅读全文]

网友评论


验证码：

keras多显卡训练方式

2020年06月18日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论