Chinese-BERT-wwm：汉语BERT的全面字掩蔽预训练（与English BERT-wwm系列模型相关）

5星

浏览量: 0

大小:None

文件类型：None

简介：
Chinese-BERT-wwm是一种针对中文设计的预训练语言模型，采用全面字级掩码技术，借鉴了English BERT-wwm系列模型的成功经验。该模型在多项汉语自然语言处理任务中表现出色，极大提升了中文文本的理解和生成能力。在自然语言处理领域中，预训练语言模型已成为非常重要的基础技术。为了进一步促进中文信息处理的研究发展，我们发布了基于全词遮罩（Whole Word Masking）技术的中文预训练模型BERT-wwm以及相关其他技术模型：BERT-wwm-ext、RoBERTa-wwm-ext、RoBERTa-wwm-ext-large、RBT3和RBTL3。这些项目均以谷歌官方发布的BERT为基础。我们还发布了MacBERT预训练模型，中文ELECTRA预训练模型，以及中文XLNet预训练模型等其他相关资源，并提供知识蒸馏工具TextBrewer的使用指南。所有上述提到的模型现均已支持TensorFlow 2版本，请通过变压器库调用或下载。我们的论文已被录用为长文。此外，在通用自然语言理解评论GLUE竞赛中，哈工大讯飞联合实验室取得了第一名的成绩。

全部评论 (0)

还没有任何评论哟~

客服

Chinese-BERT-wwm：汉语BERT的全面字掩蔽预训练（与English BERT-wwm系列模型相关）

优质

Chinese-BERT-wwm是一种针对中文设计的预训练语言模型，采用全面字级掩码技术，借鉴了English BERT-wwm系列模型的成功经验。该模型在多项汉语自然语言处理任务中表现出色，极大提升了中文文本的理解和生成能力。在自然语言处理领域中，预训练语言模型已成为非常重要的基础技术。为了进一步促进中文信息处理的研究发展，我们发布了基于全词遮罩（Whole Word Masking）技术的中文预训练模型BERT-wwm以及相关其他技术模型：BERT-wwm-ext、RoBERTa-wwm-ext、RoBERTa-wwm-ext-large、RBT3和RBTL3。这些项目均以谷歌官方发布的BERT为基础。我们还发布了MacBERT预训练模型，中文ELECTRA预训练模型，以及中文XLNet预训练模型等其他相关资源，并提供知识蒸馏工具TextBrewer的使用指南。所有上述提到的模型现均已支持TensorFlow 2版本，请通过变压器库调用或下载。我们的论文已被录用为长文。此外，在通用自然语言理解评论GLUE竞赛中，哈工大讯飞联合实验室取得了第一名的成绩。

蒙古Bert模型：预训练的Mongolian-BERT

优质

本文介绍了蒙古语BERT模型的开发过程和特点，该模型通过预训练技术显著提升了蒙古语言处理任务中的性能表现。蒙古BERT型号该存储库包含由特定团队训练的经过预训练的蒙古模型。特别感谢提供了5个TPU资源支持。此项目基于一些开源项目进行开发，并使用楷模词汇量为32000的文字标记器。您可以利用蒙面语言模型笔记本测试已预训练模型预测蒙语单词的能力如何。对于BERT-Base和 BERT-Large，我们提供两种格式的版本：未装箱的TensorFlow检查点和PyTorch模型以及HuggingFace盒装的BERT-Base。您可以通过下载相应文件进行评估研究。在经过400万步训练后，我们的模型达到了以下效果指标： - 损失值（loss）为1.3476765 - 掩码语言准确性（masked_lm_accuracy）为 0.7069192 - 掩码损失 (masked_lm_loss)：1.2822781 - 下一句准确率(next_sentence_a): 这些数据表明模型具有良好的训练效果。

BERT-wwm+CNN+双向往复LSTM

优质

简介：本研究提出一种结合预训练模型BERT-wwm、卷积神经网络(CNN)及双向向复LSTM架构的新颖文本分类方法，显著提升自然语言处理任务性能。 bert_wwm结合CNN和双向LSTM模型

BERT-base-uncased预训练模型

优质

BERT-base-uncased是一种流行的预训练语言模型，采用 uncased（不区分大小写）设定，并含有12层变压器编码器结构，广泛应用于自然语言处理任务。来自 Hugging Face 平台的 bert-base-uncased 模型存储库包含了未经案例区分的语言建模的基础 BERT 架构。该模型适用于各种自然语言处理任务，并且可以根据具体需求进行调整和扩展。

BERT预训练模型（英文）

优质

BERT (Bidirectional Encoder Representations from Transformers) 是一种深度学习模型，用于自然语言处理任务中的文本理解与生成。它通过大量的文本数据进行预训练，以捕捉语言结构和语义信息，在多项NLP任务中表现出色。这段文字包含三个文件：1. pytorch_model.bin 2. config.json 3. vocab.txt。

Swiss-BERT：在SwissCrawl上训练的瑞士德语BERT模型

优质

简介：Swiss-BERT是一款专为瑞士德语设计的语言模型，基于大规模的SwissCrawl语料库进行训练，适用于各种自然语言处理任务。在自然语言处理（NLP）领域，预训练模型已经成为理解和处理各种语言的关键工具。BERT是谷歌于2018年推出的一种革命性的预训练模型，在多项任务中取得了前所未有的效果。传统的NLP模型通常是单向的，而BERT则引入了双向Transformer编码器，能够理解文本中的上下文关系，从而提高语言理解能力。 SwissCrawl是一个专门针对瑞士德语（一种德语方言）的大型网络爬虫数据集。它包含了大量来自互联网的瑞士德语文本，旨在提供一个丰富的资源用于训练和评估瑞士德语的NLP模型。这个数据集的独特之处在于，它不仅包含标准德语，还涵盖了瑞士德语的各种方言和变体，这对于构建能理解和处理多变语言特色的模型至关重要。 swiss-bert是利用SwissCrawl数据集对原始BERT模型进行微调而得到的一个预训练模型，使其适应瑞士德语的特性。通过在SwissCrawl数据集上进行预训练，swiss-bert学习了瑞士德语特有的词汇、语法和表达方式，在处理瑞士德语文本的任务时能够展现出更高的性能和准确性。由于swiss-bert是基于Python实现的，因此可以使用Python编程语言来加载和使用该模型。通常这会涉及到使用像`transformers`这样的库，它是Hugging Face开发的一个强大的工具包，提供了与各种预训练模型交互的API。通过这个库，开发者可以方便地将swiss-bert集成到自己的NLP项目中执行诸如文本分类、问答系统和命名实体识别等任务。 **应用示例** 1. **文本分类**: swiss-bert可用于情感分析，判断瑞士德语评论或帖子的情感倾向。 2. **问答系统**: 在瑞士德语环境中，它可以理解和生成答案解决用户的问题。 3. **机器翻译**: 结合其他技术，swiss-bert可以辅助将瑞士德语翻译成其他语言。 4. **实体识别**: 识别瑞士德语文本中的关键信息如人名、地点和日期等。 swiss-bert是专门为处理特定地区方言的预训练模型。通过Python接口，开发者可以轻松地将其应用于各种NLP任务进一步推动瑞士德语自然语言处理的研究与应用。

中文 BERT-base 预训练模型

优质

中文BERT-base预训练模型是专为中文自然语言处理设计的基础模型，通过大规模中文语料库进行无监督学习获得。该模型在多项NLP任务中表现出色，可应用于文本分类、情感分析等领域。来源于Hugging Face官方的中文BERT预训练模型已下载并放置在国内分享。资源包含pytorch_model.bin和tf_model.h5文件。官方地址可在Hugging Face平台上找到。

泰语BERT模型——预训练与分词组件

优质

本研究介绍了一种针对泰语设计的BERT模型及其预训练方法和改进型分词组件。通过优化后的模型架构与训练策略，显著提升了泰语文本处理任务中的表现。预训练语言模型适用于文本分类、序列标注和情感分析等多种自然语言处理任务，并采用业界通用的技术实现。这些模型在下游的各类NLP任务中表现出良好的性能。

BERT： TensorFlow代码及预训练模型

优质

BERT: TensorFlow代码及预训练模型提供了基于Transformer架构的双向编码器表示方法，用于自然语言处理任务，包括问答和情感分析等。此资源包含开源代码与预训练模型。 2020年3月11日发布的新产品是更小的BERT模型（仅限英语版本且无大小写区分）。此版本包含了24个较小的BERT模型，并使用WordPiece掩码进行了训练。我们已经证明，除了标准的BERT-Base和BERT-Large之外，其他多种尺寸的模型在采用相同的模型架构及训练目标时也是有效的。这些更小的模型特别适用于计算资源有限的情况，在这种情况下可以按照与原始BERT模型相同的方式进行微调。然而，它们最有效地应用于知识提炼场景中，即通过更大的、更为准确的老师来进行微调标签制作。发布这一版本的目标是为那些拥有较少计算资源的研究机构提供支持，并鼓励社区探索增加模型容量的新方法。这些较小的BERT模型可以从表格下载，该表列出了不同参数组合的情况： - 高度（H）：128, 256, 512, 768 - 层数（L）：2, 4, 6, 8, 10, 12 请注意，在此版本中包含的BERT-Base模型是为了完整性考虑而重新训练的，其条件与原始模型相同。以下是测试集上的相应GLUE分数：这些较小的BERT模型为研究和应用提供了灵活性，并且在计算资源有限的情况下仍然可以实现有效的性能提升。