Advertisement

T5-Pegasus:中文的生成式预训练模型

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
T5-Pegasus是一款专为中文设计的先进生成式预训练语言模型,它能够理解和生成高质量的自然语言文本,在多种下游任务中表现出色。 T5飞马中文生成式预训练模型基于mT5架构并使用其初始权重进行训练,类似于PEGASUS的方法。我们对分词器进行了调整,将原本用于T5 PEGASUS的令牌生成器转换为适用于BERT的版本,并更适应于处理中文文本。同时,我们将词汇表重新排列以确保其中包含更加完善的汉字和词语组合;当前的vocab.txt文件包含了总共五万个token,涵盖了大部分常用的中文字词。 在预训练任务方面,假设一个文档由n个句子组成,我们从中随机挑选大约四分之一数量(即n/4)的句子。这n/4个被选中的句子拼接起来形成的文本与剩余三分之二(3n/4)的句子组合在一起时会有较长的公共子序列长度。我们将余下的三部分视作标题,而那四分之一的部分则作为摘要处理。通过这种方式构建了一个类似于“Reuters, 摘要”的伪摘要数据对。 目前公开版本的基本版T5 PEGASUS拥有总计两亿个参数。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • T5-Pegasus
    优质
    T5-Pegasus是一款专为中文设计的先进生成式预训练语言模型,它能够理解和生成高质量的自然语言文本,在多种下游任务中表现出色。 T5飞马中文生成式预训练模型基于mT5架构并使用其初始权重进行训练,类似于PEGASUS的方法。我们对分词器进行了调整,将原本用于T5 PEGASUS的令牌生成器转换为适用于BERT的版本,并更适应于处理中文文本。同时,我们将词汇表重新排列以确保其中包含更加完善的汉字和词语组合;当前的vocab.txt文件包含了总共五万个token,涵盖了大部分常用的中文字词。 在预训练任务方面,假设一个文档由n个句子组成,我们从中随机挑选大约四分之一数量(即n/4)的句子。这n/4个被选中的句子拼接起来形成的文本与剩余三分之二(3n/4)的句子组合在一起时会有较长的公共子序列长度。我们将余下的三部分视作标题,而那四分之一的部分则作为摘要处理。通过这种方式构建了一个类似于“Reuters, 摘要”的伪摘要数据对。 目前公开版本的基本版T5 PEGASUS拥有总计两亿个参数。
  • T5-Pegasus-Pytorch
    优质
    T5-Pegasus-Pytorch是一款结合了Google T5与Salesforce Pegasus模型特点,并基于Pytorch框架开发的语言处理工具包,适用于多种自然语言理解及生成任务。 t5-pegasus 的 pytorch 版本由追一科技开源。你可以下载 base 版本。 要使用该版本,请确保你的环境配置为:pytorch 1.7.0 + transformers 4.3.3 导入所需的库: ```python from tokenizer import T5PegasusTokenizer from transformers.models.mt5.modeling_mt5 import MT5ForConditionalGeneration ``` 加载模型和分词器的路径(假设你已经将它们下载到了本地): ```python model_path = ./ model = MT5ForConditionalGeneration.from_pretrained(model_path) tokenizer = T5PegasusTokenizer.from_pretrained(model_path) ``` 示例文本为 蓝。
  • ELECTRA:
    优质
    Electra是谷歌推出的一种创新的文本生成与识别框架,专门用于中文等语言的预训练模型,极大提升了自然语言处理任务中的效果和效率。 ELECTRA中文预训练模型 ELECTREA:基于对抗学习的中文tiny模型 使用官方代码的具体步骤如下: 1. 修改 `configure_pretraining.py` 文件中的数据路径、TPU 和 GPU 配置。 2. 定义模型大小,在 `code/util/training_utils.py` 中自行设置。 **ELECTRA Chinese tiny 模型** - **generator**: 为 discriminator 的 1/4 - **配置说明**: 同tinyBERT 数据输入格式:原始的
  • AttnGAN 图像(已好)- Python3 版本
    优质
    AttnGAN是一款先进的Python3文本生成图像模型,已经过预训练与优化。该工具采用注意力机制增强图像细节生成能力,适用于多种应用场景。 已经配置好了预训练模型和训练好的模型,并且除了CUB-birds图像数据集外的所有元数据文件都已经下载并配置好。 对于AttnGAN: Fine-Grained Text-to-Image Generation with Attention(带有注意的生成对抗网络细化文本到图像生成)代码复现,需要安装以下环境: ``` pip install python-dateutil pip install easydict pip install pandas pip install torchfile nltk pip install scikit-image ``` 可能还需要额外安装: ``` pip install torchvision ```
  • 图像IS分数及CUB-Bird数据集上Inception
    优质
    本研究提出了一种用于文本生成图像的IS分数预训练模型,并在CUB-Bird数据集中使用了Inception模型进行预训练,以提升生成图像的质量和多样性。 预训练的Inception模型可以用于StackGAN以及其他文本生成图像的模型(如AttnGAN、DF-GAN)来评估图像质量,尤其是在鸟类相关的任务中使用Inception Score进行评价。
  • BERT-base
    优质
    中文BERT-base预训练模型是专为中文自然语言处理设计的基础模型,通过大规模中文语料库进行无监督学习获得。该模型在多项NLP任务中表现出色,可应用于文本分类、情感分析等领域。 来源于Hugging Face官方的中文BERT预训练模型已下载并放置在国内分享。资源包含pytorch_model.bin和tf_model.h5文件。官方地址可在Hugging Face平台上找到。
  • SpeechBrain.tar
    优质
    SpeechBrain中文预训练模型.tar包含了一个专门为处理中文语音任务而优化的SpeechBrain框架预训练模型。该资源旨在促进中文语音识别、合成和理解的研究与应用发展。 官网下载不方便,原来的渠道也不好找,你可以试试这个方法,不需要下载码。
  • 官方BERT
    优质
    简介:本项目提供官方BERT中文预训练模型,支持多种中文自然语言处理任务,促进机器阅读理解、文本分类等领域的研究与应用。 Google官方提供了中文Bert预训练模型,当前使用的是bert base模型,无需担心爬梯下载的问题。如果有需要其他类型的模型,请直接私信联系。去掉具体联系方式后: Google官方发布了适用于中文的BERT预训练模型,并且目前提供的是基础版本(BERT Base)。用户可以方便地进行访问和下载而不需要额外处理或特定工具的支持。对于有特殊需求想要获取不同配置的模型,可以通过平台内的消息系统与发布者取得联系以获得进一步的帮助和支持。
  • GPT-2
    优质
    本项目包含一个基于GPT-2架构、经过大规模中文语料库训练的语言模型。它能够生成流畅且连贯的中文文本,并支持多种自然语言处理任务,如文本生成和摘要提取等。 博客介绍了训练好的中文GPT2模型的相关内容。
  • 版XLNet:XLNet
    优质
    中文版XLNet是一款经过大规模数据训练的先进语言模型,专为理解和生成高质量的中文文本而设计,适用于多种自然语言处理任务。 本项目提供了针对中文的XLNet预训练模型,并扩展了丰富的自然语言处理资源,为用户提供多种中文预训练模型选择。我们欢迎各位专家学者下载使用并共同促进和发展中文资源建设。 该项目基于CMU/谷歌官方的XLNet开发,提供了一系列相关的预训练模型和其他工具,包括MacBERT、ELECTRA和BERT-wwm等中英文版本,并且发布了知识蒸馏工具TextBrewer。所有这些模型都已支持TensorFlow 2并通过变压器库进行调用或下载。 项目重要时间线如下: - 2021年1月27日:所有模型均已更新至TensorFlow 2。 - 2020/9/15:我们的论文被录用为长文。 - 2020/8/27:哈工大讯飞联合实验室在通用自然语言理解评论GLUE中取得了第一名的成绩。 - 2020/3/11:为了更好地了解用户需求,我们邀请大家填写反馈表单以提供更好的资源和服务。 此外,在项目开发过程中还发布了一些历史新闻和模型更新信息。