全局向量的词嵌入(GloVe) 讨论区

老师您好,关于fasttext问一个问题。是不是整词和字词都能参与了训练,训练的结果是得到每个词的词向量以及所有子词的词向量?
那这样训练是不是比skipgram代价大得多慢得多?
谢谢老师!

请问使用小批量随机梯度下降时,采样xij是什么意思?

小批量随机梯度下降的意思是用部分训练数据的梯度代替全部训练数据的梯度,进行梯度下降。

后文说xij全局的信息,就是给定中心词i,背景词j出现在窗口中的次数。

那么采样xij的意思是指,每次只选择一个xij训练吗?

以skip-gram为例子:
背景词的矩阵其实就是相当于是hidden-layer


这个是为什么呀 jk交换怎么就等于1了