gluon-nlp例子中的Machine Translation,报Aborted错误

用gluon-nlp例子中的Machine Translation时

python gnmt.py --src_lang en --tgt_lang vi --batch_size 64
–optimizer adam --lr 0.001 --lr_update_factor 0.5 --beam_size 10
–num_hidden 512 --save_dir gnmt_en_vi_l2_h512_beam10 --epochs 10 --gpu 0

报Aborted中断了。
系统: radhat, GPU:k80,其他参数都一样。但是跑了一个epoch,就aborted,是例子代码问题吗?

可能是out of memory了?方便贴下完整的错误信息吗?


2018-05-17 16:03:17,264 - root - [Epoch 0 Batch 1200/2084] loss=3.4251, ppl=30.7252, gnorm=1.0000, throughput=4.56K wps, wc=267.34K
2018-05-17 16:04:18,902 - root - [Epoch 0 Batch 1300/2084] loss=3.3675, ppl=29.0054, gnorm=1.0000, throughput=4.68K wps, wc=288.65K
2018-05-17 16:05:18,658 - root - [Epoch 0 Batch 1400/2084] loss=3.2582, ppl=26.0036, gnorm=1.0000, throughput=4.63K wps, wc=276.50K
2018-05-17 16:06:19,644 - root - [Epoch 0 Batch 1500/2084] loss=3.2021, ppl=24.5830, gnorm=1.0000, throughput=4.71K wps, wc=287.33K
2018-05-17 16:07:20,800 - root - [Epoch 0 Batch 1600/2084] loss=3.1580, ppl=23.5232, gnorm=1.0000, throughput=4.66K wps, wc=285.26K
2018-05-17 16:08:22,830 - root - [Epoch 0 Batch 1700/2084] loss=3.0999, ppl=22.1956, gnorm=1.0000, throughput=4.67K wps, wc=289.60K
2018-05-17 16:09:26,500 - root - [Epoch 0 Batch 1800/2084] loss=3.0494, ppl=21.1027, gnorm=1.0000, throughput=4.51K wps, wc=287.30K
2018-05-17 16:10:28,119 - root - [Epoch 0 Batch 1900/2084] loss=3.0273, ppl=20.6417, gnorm=1.0000, throughput=4.66K wps, wc=287.17K
2018-05-17 16:11:29,798 - root - [Epoch 0 Batch 2000/2084] loss=2.9582, ppl=19.2634, gnorm=1.0000, throughput=4.69K wps, wc=289.22K
Aborted

这样就断了,没有其他信息

上面是原码的输出 我修改后 用4个gpu跑 也是这个错误

好的,mxnet用的是什么版本的?

用1.2的 我看了下 应该可以定位到gnmt.py里的evaluate()方法

你好 这个问题能帮我看下吗

应该是memory问题,我们正在修复

在每个epoch后加上mx.nd.waitall()就行, 已经可以用了

2赞