
T5-Pegasus:中文的生成式预训练模型
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
T5-Pegasus是一款专为中文设计的先进生成式预训练语言模型,它能够理解和生成高质量的自然语言文本,在多种下游任务中表现出色。
T5飞马中文生成式预训练模型基于mT5架构并使用其初始权重进行训练,类似于PEGASUS的方法。我们对分词器进行了调整,将原本用于T5 PEGASUS的令牌生成器转换为适用于BERT的版本,并更适应于处理中文文本。同时,我们将词汇表重新排列以确保其中包含更加完善的汉字和词语组合;当前的vocab.txt文件包含了总共五万个token,涵盖了大部分常用的中文字词。
在预训练任务方面,假设一个文档由n个句子组成,我们从中随机挑选大约四分之一数量(即n/4)的句子。这n/4个被选中的句子拼接起来形成的文本与剩余三分之二(3n/4)的句子组合在一起时会有较长的公共子序列长度。我们将余下的三部分视作标题,而那四分之一的部分则作为摘要处理。通过这种方式构建了一个类似于“Reuters, 摘要”的伪摘要数据对。
目前公开版本的基本版T5 PEGASUS拥有总计两亿个参数。
全部评论 (0)
还没有任何评论哟~


