
LaBSE:无语言限制的BERT句子嵌入
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
LaBSE是一种跨语言模型,基于BERT架构,能够生成高质量的句子嵌入,适用于多种语言之间的语义相似度计算和匹配任务。
LaBSE(与语言无关的BERT句子嵌入)将原始tfhub权重转换为BERT格式。该模型采用多语言BERT来生成109种语言的句子嵌入。尽管屏蔽语言模型(MLM)预训练后进行任务特定微调已经在英语句子嵌入中取得了最新技术成果,但这种方法尚未用于多语言句子嵌入。
我们的LaBSE方法结合了MLM和翻译语言模型(TLM)的预训练,并使用双向双重编码器来执行翻译排名任务。最终得到的多语言句子嵌入在112种语言上的平均双文本检索准确度达到了83.7%,远高于现有技术在Tatoeba数据集上所达到的65.5%。
此外,我们的模型还在BUCC和联合国平行语料库测试中建立了新的性能基准。
全部评论 (0)
还没有任何评论哟~


