Word2vec 的实现 讨论区


#1

http://zh.diveintodeeplearning.org/chapter_natural-language-processing/word2vec-gluon.html


#2

这一篇是还没有完全翻译好吗?


#3

还在写


#4

现在已经写好了,欢迎贡献pr指正!

http://zh.gluon.ai.s3-website-us-west-2.amazonaws.com/chapter_natural-language-processing/embedding-training.html


#5


请问这一个错误可能是因为什么原因造成的呢?


#6

你是在win下将dataloader的num_workers设多了吗?如果1.2.1的mxnet还不支持


#7

请问如果是12核CPU的计算机,是最多设12吗?


#8

能不能帮下忙,感觉下述的label没有起到作用啊。
pred是数据,mask用来判断哪一个数据可以用来计算,而label没有看到是用来干啥的
image


#9

有了label才知道pred应该拿到怎样的loss


#10

正常来说,由数据计算预测值,然后通过预测值和label计算出loss。但是该计算只是使用数据和mask计算loss,没有看到有label什么事。
从零开始实现二元交叉熵损失函数的计算公式如下,这个看着会更明显
image
x的值是数据,4和3是从mask获取的,但是label没有在这个过程中看到


#11

mask其实是权重的意思,0.873是将第一行对应的4个loss 相加,每个loss都有一个权重


#12

你好,请问负采样中的噪声样本可以和正样本一样,来自于同一个embed.weight吗,


#13

PTB(Penn Tree Bank)数据集从哪里获得呢?


#14

https://catalog.ldc.upenn.edu/LDC99T42


#15

random.choices报错。。是因为用的python2吗?


#16

AttributeError: module ‘random’ has no attribute ‘choices’

but change to :
i, neg_candidates = 0, random.choice(
population, sampling_weights, k=int(1e5))

It still report:
TypeError: choice() got an unexpected keyword argument ‘k’


#17

In python 3.5, the random module has no “choices” method.
Replacing the random.py with the new random.py in the https://github.com/python/cpython/blob/3.7/Lib/random.py

Then, in my environment, the problem seems disappear.


#18

请教大家一个问题,想这个embedding层加入后续的nn模型中训练的时候应不应该和模型一起更新呢?如果更新的话,没有激活函数怎么更新呢?有没有介绍这方面的paper?


#19

you can use two embedding layers, one stay constant and the other gets trained. you can check “convolutional neural networks for sentence classification” by Yoon Kim.


#20

FileNotFoundError Traceback (most recent call last)
in ()
----> 1 with zipfile.ZipFile(’…/data/ptb.zip’, ‘r’) as zin:
2 zin.extractall(’…/data/’)
3
4 with open(’…/data/ptb/ptb.train.txt’, ‘r’) as f:
5 lines = f.readlines()

D:\Anaconda\lib\zipfile.py in init(self, file, mode, compression, allowZip64, compresslevel)
1180 while True:
1181 try:
-> 1182 self.fp = io.open(file, filemode)
1183 except OSError:
1184 if filemode in modeDict:

FileNotFoundError: [Errno 2] No such file or directory: ‘…/data/ptb.zip’
处理数据集出现的问题,应该把ptb数据集放在哪里呢?