循环神经网络的从零开始实现 讨论区


#62

好的 :grinning:


#63

对的。用的win10 ,python3,mxnet GPU版本。在跑CPU版本是没有问题的。具体表现为 norm += nd.sum(p.grad ** 2) 算出来的norm 没有几步后 norm就 为 nan 请问是什么原因呢?谢谢


#64

我用windows 10试了下,确实出现math range error的错误。
我的环境是:python 3.5, mxnet-1.0.1b20180126。
在linux下没有问题的。


#65

windows版本下,nd.array中有负值的时候,计算结果是NaN,
x = nd.array([-0.012,0.02],ctx=mx.gpu())
x**2的结果是:
[ nan 0.0004]
<NDArray 2 @gpu(0)>
不知道这是什么原因。


#66

求英文版教程链接


#67

你的问题解决了吗?我也遇到了和你一样的问题


#68

这个错误怎么解决??


#69

你可以在论坛里搜一下这个问题,我记得去年有人问过


#70

没有
MathJax这一块的问题 你可以搜一下 这个也有类似错误 https://github.com/jupyter/notebook/issues/1108


#71

MathJax的问题解决了,确少的文件可以从这里找到http://www.math.toronto.edu/MathJax/jax/
但是第四段执行idx_to_char = list(set(corpus_chars))之后,长度就从175267变成88了,而不是1456,不知道是哪里出了问题


#72

这里的困惑度很让我困惑啊,文中提到的困惑度是loss函数?但是这样的话,当 p_{{target}_i} = 1 的时候,对应的困惑度应该为0啊,如果不是这样的话,那对应后面文中提到当 p_{{target}_i} = 1 的时候,困惑度为正无穷就不能理解了:joy:
另外,如果是 1/|W| 的正确率,按照loss函数计算出来的值也不应该是|W|啊,而是
\frac{1}{|W|}*|W|ln|W|=ln|W|


#73

看代码明白了,是对softmax_cross_entropy 进行 exp 并除以样本数的操作,这样就通了


#74

@piiswrong 我们win的ci应该测了这个吧,需要去github搞个issue吗?


#75

在open函数里面,加上指定读取格式的参数,比如’utf-8’


#76

这个one_hot纬度有点疑问,如果是 batch_size * vocab_size的纬度,那么如果一句话有多个字是重复没法和文字一一对应,而且这种纬度无法表现字符串的顺序,个人觉得是不是batch_size * vocab_size* num_steps更好呢?虽然损失了内存和速度,但是最重要的两个特征保留下来了


#77

比如以下一句话

ACAB

one-hot
A: [1,0,0]
B: [0,1,0]
C: [0,0,1]

那么句子就是
[[1,0,0], [0,0,1], [1,0,0], [0,1,0]]


#78

我把学习率调成0.01, 的确可以运行, 然而还是很慢, 我准备看一下用CPU运算会不会快一点.
这里调用GPU是为什么呢


#79

视频中讲到n-gram的时候,对应的“unigram”与“bigram”是不是应该是“bigram”与“trigram”?“unigram”应该是假设每个字的出现都是独立的,不依赖于前面的任何字?


#80

试了还是同样问题,我是win10+anaconda python 3.6+cuda9.0+mxnet-cu90


#81

使用这两个sampling的方法,应该就不需要做bucketing了吧?