如何使用BERT预训练小语种的模型


在预训练BERT模型的时候 --vocab 选项通过查看代码发现有四个选项
‘book_corpus_wiki_en_uncased’, ‘book_corpus_wiki_en_cased’,
‘wiki_multilingual_uncased’, ‘wiki_multilingual_cased’, ‘wiki_cn_cased’
如果想训练一个小语种的模型该如何设置呢?

最近的0.7.1新版本新增了使用自己生成的词表

1赞