word2vec 的实现 讨论区

http://zh.diveintodeeplearning.org/chapter_natural-language-processing/word2vec-gluon.html

这一篇是还没有完全翻译好吗?

还在写

现在已经写好了,欢迎贡献pr指正!

http://zh.gluon.ai.s3-website-us-west-2.amazonaws.com/chapter_natural-language-processing/embedding-training.html


请问这一个错误可能是因为什么原因造成的呢?

你是在win下将dataloader的num_workers设多了吗?如果1.2.1的mxnet还不支持

请问如果是12核CPU的计算机,是最多设12吗?

能不能帮下忙,感觉下述的label没有起到作用啊。
pred是数据,mask用来判断哪一个数据可以用来计算,而label没有看到是用来干啥的
image

有了label才知道pred应该拿到怎样的loss

正常来说,由数据计算预测值,然后通过预测值和label计算出loss。但是该计算只是使用数据和mask计算loss,没有看到有label什么事。
从零开始实现二元交叉熵损失函数的计算公式如下,这个看着会更明显
image
x的值是数据,4和3是从mask获取的,但是label没有在这个过程中看到

mask其实是权重的意思,0.873是将第一行对应的4个loss 相加,每个loss都有一个权重

你好,请问负采样中的噪声样本可以和正样本一样,来自于同一个embed.weight吗,

PTB(Penn Tree Bank)数据集从哪里获得呢?

1赞

https://catalog.ldc.upenn.edu/LDC99T42

random.choices报错。。是因为用的python2吗?

AttributeError: module ‘random’ has no attribute ‘choices’

but change to :
i, neg_candidates = 0, random.choice(
population, sampling_weights, k=int(1e5))

It still report:
TypeError: choice() got an unexpected keyword argument ‘k’

In python 3.5, the random module has no “choices” method.
Replacing the random.py with the new random.py in the https://github.com/python/cpython/blob/3.7/Lib/random.py

Then, in my environment, the problem seems disappear.

请教大家一个问题,想这个embedding层加入后续的nn模型中训练的时候应不应该和模型一起更新呢?如果更新的话,没有激活函数怎么更新呢?有没有介绍这方面的paper?

you can use two embedding layers, one stay constant and the other gets trained. you can check “convolutional neural networks for sentence classification” by Yoon Kim.

FileNotFoundError Traceback (most recent call last)
in ()
----> 1 with zipfile.ZipFile(’…/data/ptb.zip’, ‘r’) as zin:
2 zin.extractall(’…/data/’)
3
4 with open(’…/data/ptb/ptb.train.txt’, ‘r’) as f:
5 lines = f.readlines()

D:\Anaconda\lib\zipfile.py in init(self, file, mode, compression, allowZip64, compresslevel)
1180 while True:
1181 try:
-> 1182 self.fp = io.open(file, filemode)
1183 except OSError:
1184 if filemode in modeDict:

FileNotFoundError: [Errno 2] No such file or directory: ‘…/data/ptb.zip’
处理数据集出现的问题,应该把ptb数据集放在哪里呢?