
Scibert:针对科学文本的BERT模型
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
Scibert是一种专门用于理解科学文献中复杂语言和概念的深度学习模型。它基于著名的BERT架构,并经过大量科学文本数据训练,以提高在科学研究中的应用效果。
SciBERT 是一种基于 BERT 的模型,经过科学文献的训练来提高其在科学领域的自然语言处理性能。该模型使用了包含114万篇论文、共计3.1B令牌的数据集进行训练,并且采用了全文而非摘要来进行培训过程。
为了适应这种特定语料库的需求,SciBERT 拥有自己的词汇表(称为 scivocab),它更适合于训练期间使用的科学文献数据。此外,我们还提供了带壳和无壳版本的模型,以及在原始 BERT 词汇表(basevocab)上进行训练的对比模型。
经过这种专门化的培训后,SciBERT 在多个科学领域的自然语言处理任务中达到了最先进的性能水平,并且相关的评估细节、代码及数据集都包含在这个仓库内。用户可以直接安装 SciBERT 模型:
```python
from transformers import *
tokenizer = AutoTokenizer.from_pretrained(allenai/scibert_scivocab_uncased)
model = AutoModel.from_pretrained(allenai/scibert_scivocab_uncased)
```
以上代码段用于加载和使用训练好的模型。
全部评论 (0)
还没有任何评论哟~


