word2vec 中文如何训练?

请教一下,用word2vec模型训练英文可以把每一个word转换成词向量,make sense !.

但是如何训练中文呢?是把每个字转换成一个向量(比如“天”和“气”)? 还是每个词组(比如 “天气”)? 如果都要训练又如何区分呢?

这里的问题是个中文分词。简单处理的话可以直接单独每个字分开,这个做法比较普遍。不然则需要根据所需要解决的问题训练中文分词模型

中文的话,我觉得是不是需要人工加前缀?比如“的”是辅助无意义“null的”,“天气”是名词“noun天气”这样子?