
GPT2-ML:涵盖多种语言的GPT2,包含已预先训练的模型。 中文15亿参数预训练模型及多语言支持
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
GPT2-ML是一个开源项目,提供多种语言版本的GPT2模型,并且已经完成了包括中文在内的多个语种的预训练工作,特别地,它包含了一个15亿参数规模的中文预训练模型。
适用于多种语言的GPT2 | 简化的基于Grover的GPT2训练脚本(支持TPU)
- 移植的bert令牌生成器,兼容多语言语料库
- 1.5B GPT2预训练中文模型(约30GB语料库,22万步)和1.5B GPT2预训练中文模型(约15GB语料库,10万步)
- 包含电池的Colab演示
- 模型尺寸、语言及词汇链接信息如下:
- 1.5B参数 中文 约30G 线索 (8021代币)
- 1.5B参数 中文 ~15GB BERT(21128代币)
使用Google Colab只需单击两次(不包括Colab身份验证过程),即可开始进行1.5B预训练的中文模型演示。
免责声明:此存储库中的内容仅供学术研究之用,我们不提供任何结论性意见。引用时请参考文献 @misc{GPT2-ML}
全部评论 (0)
还没有任何评论哟~


