
CDial-GPT:大型中文简短对话数据集与中文预训练对话模型
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
CDial-GPT为一个专为中国用户设计的大型中文简短对话数据库及预训练模型,旨在促进高效、自然的人机对话技术发展。
CDial GPT项目提供了一个大规模的中文对话数据集,并在此基础上训练了中文GPT模型。更多信息请参考我们的文档。
该项目基于HuggingFace Pytorch库进行开发,支持预训练与微调操作。更新记录如下:
2021年2月28日:我们发布了一项新功能,欢迎各位用户报告bug并提出加速优化算法的建议以及新的数据清洗需求等。
2021年1月9日:实验室出版了新书《自然语言处理实践》,欢迎大家阅读购买。
2020年11月20日:发布了预训练模型的新工作。该研究将词级的语言学知识(包括词性和情感倾向)融入到表示模型SentiLARE中,欢迎使用并给予反馈。
2020年10月18日:我们的论文《大规模中文短文本对话数据集》在NLPCC 2020会议上荣获最佳学生论文奖。
2020年9月8日:感谢所有贡献者和用户的帮助和支持。
2020年9月2日:现在可以加载预训练模型,感谢苏剑林提供的代码支持。我们所提供的数据集LCCC(大规模汉语清洁会话)可满足多种研究需求。
全部评论 (0)
还没有任何评论哟~


