GluonNLP 0.3.3 新功能及重现报告


#1

GluonNLP: http://gluon-nlp.mxnet.io
Github: https://github.com/dmlc/gluon-nlp

公众号链接: https://mp.weixin.qq.com/s/UlQG5gK2k8b2FiGwc_BZ-g
mxnet blog 链接:https://zh.mxnet.io/blog/gluon-nlp-0.3


#2

期待能添加crf层。按照pytorch照搬写的crf层,训练速度相当慢,跟tensorflow比起来不是一个量级的 :sweat:


#3

跑了下语言模型中的cache_language_model.py,
输入指令:$ python -u cache_language_model.py --gpus 0 --save awd_lstm_lm_1150
出错,cache_language_model.py: error: unrecognized arguments: --save awd_lstm_lm_1150


请问老师们这是什么问题?


#4

因为没有—save这个argument, 按照print的usage, 你可以看到对应的argument是—path_to_params_file. 在我们的每个script task folder底下都有一个rst文件,里面有重现结果的command.


#5

谢谢老师,还是跑这个测试用类又出现了下载不了模型的错误,请问老师这个是什么情况?


#6

估计是网络的问题,搭梯子加代理试试


#7

谢谢老师指导,确实是网络问题。我的测试又出现问题了。

语言模型:编译cache_language_model.py,出现这个错误

机器翻译:执行的python train_transformer.py --dataset WMT2014BPE --src_lang en --tgt_lang de --batch_size 4096
–optimizer adam --num_accumulated 8 --lr 1.0 --warmup_steps 8000
–save_dir transformer_en_de_u512 --epochs 40 --gpus 0,1,2,3 --scaled
–average_start 5 --num_buckets 20 --bucket_scheme exp --bleu 13a
这几条。报这个错误:

词向量测试:
运行这两条指令:
2018-08-11%2021-57-45%E5%B1%8F%E5%B9%95%E6%88%AA%E5%9B%BE

报这个错误

求教各位老师们!


#8

前一个是因为mxnet更新以后gluonnlp还没更新,这个问题track在 https://github.com/dmlc/gluon-nlp/issues/264
后一个应该用./run_all.sh


#9

谢谢老师,我看了下我的gluonnlp的版本已经是0.3.3。我没有找到更新版本的gluonnlp,请问老师在哪里可要找到最新版的gluonnlp?还有上述的语言模型和机器翻译的错误都是由gluonnlp的版本问题引起的吗?

词向量篇,执行完毕后,出现这个错误

然后我删除了关键字exist_ok.编译了三个多小时,仍是这个状态,请问老师,这样是对的吗?


#10

master branch上已经修复了h2h_weight not found的问题了,可以用pip install -U https://github.com/dmlc/gluon-nlp/tarball/master安装最新版来试。这个fix会放进gluonnlp 0.4,这周末release
后一个问题应该是下载速度慢,可以尝试在脚本里开头加上export MXNET_GLUON_REPO=https://apache-mxnet.s3.cn-north-1.amazonaws.com.cn/,用国内镜像来下载


#11

感谢老师。
后来词向量的还是报错了,我想是否是由于我把‘exist_ok’删除的原因?

机器翻译也是这个错误,下载不了模型。

请教老师!


#12

第一个感觉是内存炸了,第二个是网速问题的样子
网速问题可以试试能不能用个什么其他下载工具地址就是apache-mxnet.s3.cn-north-1…那个地址


#13

感谢老师,我释放了内存后,并且减小了batch size ,机器翻译和词向量仍然报错!


这是词向量的错误

这是机器翻译的错误

请教老师还有啥解决方法?(我是用笔记本跑得)


#14

看起来都是内存不够的原因,建议用内存更大的机器跑,也可以试下EC2


#15

老师您好,后来听您的建议后,重新配置了一台深度学习的主机,装上了nvidia驱动,cuda为9.2,cudnn为7.2。gluonnlp为0.4,mxnet为最新版。
测试语言模型出现错误
2018-08-27%2021-47-08%E5%B1%8F%E5%B9%95%E6%88%AA%E5%9B%BE


#16

这个脚本应该更新过了,更新下本地的脚本?


#17

老师您好,我是Git clone最新的版本。


#18

发现确实是个bug,多谢! @liu-yichang

@cgraywang


#19

不客气老师,老师,我另外测试机器翻译和词向量的时候,都出现了 mxnet.base.MXnetError: src/ndarray/ndarray.cc:1233:GPU is not enabled,的错误。
我安装mxnet 使用的是pip,cuda为9.2。


#20

老师,这种GPU is not enabled ,是否是因为我安装mxnet不对(我用的pip安装)