gluoncv 使用train_yolov3 卡住怎么回事


#1

GPU:1080
ubuntu16.04
执行train_yolov3 一直停留在下面 epoch0 ,以为执行慢,一天了还是那样,而GPU占用了1G左右
INFO:root:Namespace(batch_size=12, data_shape=416, dataset=‘voc’, epochs=200, gpus=‘0’, label_smooth=False, log_interval=100, lr=0.001, lr_decay=0.1, lr_decay_epoch=‘160,180’, lr_decay_period=0, lr_mode=‘step’, mixup=False, momentum=0.9, network=‘darknet53’, no_mixup_epochs=20, no_random_shape=False, no_wd=False, num_samples=434, num_workers=16, resume=’’, save_interval=10, save_prefix=‘yolo3_darknet53_voc’, seed=233, start_epoch=0, syncbn=True, val_interval=1, warmup_epochs=4, warmup_lr=0.0, wd=0.0005)
INFO:root:Start training from [Epoch 0]


#2

df -h /dev/shm 看下是不是shared memory满了


#3

本机内存8g,当我把batch_size改为1,有以下错误:
MXNetError: [22:06:18] src/storage/./cpu_device_storage.h:73: Failed to allocate CPU Memory


#4

大佬的train_yolov3.在哪下载的?我用github上的,情况跟你类似,内存崩了。


#5

官网上下的,现在还不知道什么原因,不科学啊


#6

num worker 换成 0 试试?


#7

我训练ssd也遇到了相同的问题,有谁能解答一下吗,谢谢


#8

你训过?在windows还是linux?


#9

单卡训练设置下–no-random-shape


#10

你好,对于非docker方案,又没有sudo权限的情况下有其他好的解决方案么


#11

你是在windows还是在linux?


#12

linux


#13

最新的mxnet(pip install mxnet-cuxx --upgrade --pre)可以开thread_pool=True, 可以绕开多进程


#14

在Windows上训练fcn时遇到同样的问题MXNetError: [11:30:33] c:\projects\mxnet-distro-win\mxnet-build\src\storage./cpu_device_storage.h:70: Failed to allocate CPU Memory,网上查了下搜到这个链接仅供参考
https://stackoverflow.com/questions/51996906/what-does-failed-to-allocated-to-cpu-memory-mean-in-mxnet


#15

这个在哪设置啊


#16

我也碰到了,经常训练到一半的时候卡住不动,gpu利用率100%,显卡功率保持40w


#17

num worker这个参数是?


#18

这个设置为0,就是一次传入0张照片,怎么训练效果?