基于深度迁移学习的多语种NLP技术原理和实践

发布时间：2020-07-01 04:02:54 所属栏目：大数据来源：站长网

导读：副标题#e# 全球存在着几千种语言，这就对NLP研究者带来了巨大的难题，因为在一个语种上训练的模型往往在另外一个语种上完全无效，而且目前的NLP研究以英语为主，很多其他语种上面临着标注语料严重不足的困境。在跨语种NLP研究方面，业界已经做了不少研究，

Multilingual BERT使用特征抽取能力更强的transformer作为编码器，通过MLM和NSP在超过100种语言上进行预训练，但它的模型本身并没有针对多语种进行过多优化。而XLM对Multilingual BERT进行了优化，主要是增加了TML预训练任务，使模型能学习到多语种token之间的关联关系。XLMR结合了XLM和RoBERTa的优势，采用了更大的训练集，并且对低资源语种进行了优化，在XNLI、NER CoNLL-2003、跨语种问答MLQA等任务上，效果均优于Multilingual BERT，尤其是在Swahili、Urdu等低资源语种上效果提升显著。

在百分点实际业务数据的测试中，目前已经在英语、法语、阿语等常规语种上进行测试，无论是单语种任务还是跨语种任务，整体来看XLMR的效果要优于Multilingual BERT。想要实现在一种语种上进行模型训练，然后直接在另外一种语种上进行预测这样的跨语种迁移，仍需要相关领域进一步深入的探索。

Google近期发布了一个用于测试模型跨语种性能的基准测试Xtreme，包括了对12种语言家族的40种语言进行句子分类、句子检索、问答等9项任务。在Xtreme的实验中，先进的多语言模型如XLMR在大多数现有的英语任务中已达到或接近人类的水平，但在其它语言尤其是非拉丁语言的表现上仍然存在巨大差距。这也表明，跨语言迁移的研究潜力很大。不过随着Xtreme的发布，跨语种NLP的研究肯定也会加速，一些激动人心的模型也会不断出现，让我们共同期待。

（编辑：宿州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

4/4

首页