Advertisement

CDial-GPT:大型中文简短对话数据集与中文预训练对话模型

  • 5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
CDial-GPT为一个专为中国用户设计的大型中文简短对话数据库及预训练模型,旨在促进高效、自然的人机对话技术发展。 CDial GPT项目提供了一个大规模的中文对话数据集,并在此基础上训练了中文GPT模型。更多信息请参考我们的文档。 该项目基于HuggingFace Pytorch库进行开发,支持预训练与微调操作。更新记录如下: 2021年2月28日:我们发布了一项新功能,欢迎各位用户报告bug并提出加速优化算法的建议以及新的数据清洗需求等。 2021年1月9日:实验室出版了新书《自然语言处理实践》,欢迎大家阅读购买。 2020年11月20日:发布了预训练模型的新工作。该研究将词级的语言学知识(包括词性和情感倾向)融入到表示模型SentiLARE中,欢迎使用并给予反馈。 2020年10月18日:我们的论文《大规模中文短文本对话数据集》在NLPCC 2020会议上荣获最佳学生论文奖。 2020年9月8日:感谢所有贡献者和用户的帮助和支持。 2020年9月2日:现在可以加载预训练模型,感谢苏剑林提供的代码支持。我们所提供的数据集LCCC(大规模汉语清洁会话)可满足多种研究需求。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • CDial-GPT
    优质
    CDial-GPT为一个专为中国用户设计的大型中文简短对话数据库及预训练模型,旨在促进高效、自然的人机对话技术发展。 CDial GPT项目提供了一个大规模的中文对话数据集,并在此基础上训练了中文GPT模型。更多信息请参考我们的文档。 该项目基于HuggingFace Pytorch库进行开发,支持预训练与微调操作。更新记录如下: 2021年2月28日:我们发布了一项新功能,欢迎各位用户报告bug并提出加速优化算法的建议以及新的数据清洗需求等。 2021年1月9日:实验室出版了新书《自然语言处理实践》,欢迎大家阅读购买。 2020年11月20日:发布了预训练模型的新工作。该研究将词级的语言学知识(包括词性和情感倾向)融入到表示模型SentiLARE中,欢迎使用并给予反馈。 2020年10月18日:我们的论文《大规模中文短文本对话数据集》在NLPCC 2020会议上荣获最佳学生论文奖。 2020年9月8日:感谢所有贡献者和用户的帮助和支持。 2020年9月2日:现在可以加载预训练模型,感谢苏剑林提供的代码支持。我们所提供的数据集LCCC(大规模汉语清洁会话)可满足多种研究需求。
  • GPT-2
    优质
    本项目包含一个基于GPT-2架构、经过大规模中文语料库训练的语言模型。它能够生成流畅且连贯的中文文本,并支持多种自然语言处理任务,如文本生成和摘要提取等。 博客介绍了训练好的中文GPT2模型的相关内容。
  • 医疗 -
    优质
    中文医疗对话数据集是一个包含大量中英文双语医学对话的数据集合,旨在促进医疗自然语言处理研究与应用的发展。 在当今的信息时代,数据是推动人工智能发展的关键要素之一。特别是在医疗领域,高效的处理与精准的数据分析能够显著提升医疗服务的质量和效率。“中文医疗对话数据集”正是针对这一需求设计的资源库,它为开发用于医疗场景的人工智能系统提供了宝贵的训练素材。 该数据集由Toyhom提供,并旨在促进中文环境下医学对话系统的进步。核心文件包括“sample_IM5000-6000.csv”,这是一个CSV格式的样本段落件,包含了从第5,001条到第6,000条医生与患者的对话记录。每一条记录都包含有上下文信息、患者症状描述、医生提问和诊断建议等内容。这种结构使得数据集非常适合用于训练自然语言处理(NLP)模型,特别是那些专注于理解和生成医疗对话的模型。 “LICENSE.txt”文件详细规定了该数据集的使用权限与条件。用户在利用这些资源时必须遵守相关规定以确保合法合规。通常情况下,开源数据集许可证会涵盖学术研究和非商业用途等方面,但对商业应用可能有特定限制。因此,在实际操作前,请仔细阅读并理解许可协议的内容。 “chinese medical dialogue_datasets.zip”是整个数据集的压缩包版本,其中包含更丰富的对话记录、标注信息及其他相关文件。解压后,开发者可以获取完整的资源库用于深度学习模型的设计与训练过程。 该数据集的实际应用包括但不限于: 1. **机器学习模型训练**:通过分析这些对话内容,AI系统能够掌握医疗术语和医患交流模式,并模拟出更真实、准确的医学咨询。 2. **智能问答系统的开发**:经过适当培训后,这些模型可以成为解答患者常见问题的有效工具,减轻医生的工作负担并提高服务效率。 3. **疾病预测与诊断辅助功能**:通过对对话内容进行深入分析,可能发现潜在疾病的模式,并为临床决策提供参考依据。 4. **构建医疗知识图谱**:将对话中的医学知识整合进知识库中,帮助医护人员快速查询和理解相关病情信息。 5. **患者情感分析**:通过识别并分析对话中的情绪表达来提升服务的人文关怀水平,从而改善医患关系。 “中文医疗对话数据集”是研究者与开发者不可或缺的工具之一。它为构建更加智能、人性化的医疗服务系统提供了丰富的学习资源。然而,在利用这些宝贵的数据时,我们也必须严格遵守相关的法律法规和道德准则以保护患者隐私权不受侵犯。
  • 医疗(MedDialog)-
    优质
    MedDialog是专为中文环境设计的医疗领域对话数据集,旨在促进医学咨询、诊断支持等应用场景中的AI研究与开发。 本数据集由好大夫和圣地亚哥大学提供。 包含的文件有: - mdd_bertGPT_datasets.zip - mdd_gpt2_datasets.zip - mdd_transformer_datasets.zip - .gitattributes - chinesemedicaldialoguedataset-_datasets.zip
  • 的百万级
    优质
    该数据集包含超过一百万条高质量的中文对话记录,涵盖广泛的主题和场景,旨在促进自然语言处理领域内对话系统的研究与开发。 该仓库位于 gitee.com 上,地址是 https://gitee.com/chenyang918/chinese_chatbot_corpus 。可以进行解析。 去掉链接后: 该仓库位于 gitee.com ,包含中文聊天机器人的语料库。
  • PyTorch基础
    优质
    本文章介绍了在PyTorch框架下如何使用基础预训练模型,并结合具体的数据集进行微调和应用,适合初学者快速上手。 在PyTorch中的基础预训练模型包括AlexNet、VGG16、VGG19、ResNet、Inception以及SqueezeNet。常用的数据集有MNIST、SVHN、CIFAR10、CIFAR100和STL10,这些数据集广泛应用于图像分类任务的实验与研究中。
  • ELECTRA:
    优质
    Electra是谷歌推出的一种创新的文本生成与识别框架,专门用于中文等语言的预训练模型,极大提升了自然语言处理任务中的效果和效率。 ELECTRA中文预训练模型 ELECTREA:基于对抗学习的中文tiny模型 使用官方代码的具体步骤如下: 1. 修改 `configure_pretraining.py` 文件中的数据路径、TPU 和 GPU 配置。 2. 定义模型大小,在 `code/util/training_utils.py` 中自行设置。 **ELECTRA Chinese tiny 模型** - **generator**: 为 discriminator 的 1/4 - **配置说明**: 同tinyBERT 数据输入格式:原始的
  • COCO的Yolox权重
    优质
    这段简介可以描述为:“针对COCO数据集优化的Yolox模型预训练权重,提供高效目标检测性能。适用于各类图像识别任务,加速模型开发与部署。” Yolox模型的预训练权重可以使用。
  • KEARSImageNet
    优质
    KEARS中的ImageNet预训练模型是基于大规模图像数据库训练而成的强大视觉识别工具,适用于各类计算机视觉任务。 GitHub上发布的Keras预训练模型(包括vgg16、vgg19和resnet50)官方下载速度较慢。我提供了一个百度云链接来加速下载过程,注册一天的百度云会员可以更快地完成下载。