Advertisement

cnews中文数据集已压缩包。

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
THUCNews数据集是通过对新浪新闻RSS订阅频道在2005年至2011年间积累的历史数据进行精选和过滤而构建的,其中收录了74万篇新闻文档,总计占用2.19 GB存储空间,并以UTF-8纯文本格式呈现。基于原始新浪新闻的分类体系,我们对其进行了重新整合和划分,最终确立了14个候选的新闻分类类别,具体包括:财经新闻、彩票信息、房地产资讯、股票市场动态、家居生活、教育领域、科技前沿、社会事件、时尚潮流、时事政治、体育赛事、星座运势、游戏娱乐以及其他各类内容。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • cnews.zip
    优质
    CNews中文数据集包含大量分类新闻文本,适用于进行中文新闻文章的主题分类、文本分析等研究与应用开发。 THUCNews 数据集是基于新浪新闻 RSS 订阅频道在 2005 年至 2011 年间的历史数据筛选过滤生成的,包含约74万篇新闻文档(总计约为2.19GB),所有文档均为UTF-8纯文本格式。在此基础上,我们对原始新浪新闻分类体系进行了重新整合和划分,形成了包括财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏及娱乐在内的共计14个候选分类类别。
  • CNEWS本分类
    优质
    CNEWS中文文本分类数据集是一套包含新闻文章及其对应类别的大型数据集合,旨在促进中文自然语言处理领域的研究与应用。 cnews中文文本分类数据集是由清华大学根据新浪新闻RSS订阅频道2005年至2011年间的历史数据筛选过滤生成的。训练过程的具体细节可以在我的博客中找到。
  • multi30k
    优质
    Multi30K数据集压缩包包含了30,000多条英语到德语和法语的平行文本对,适用于机器翻译任务的研究与开发。 Multi30k数据集是torchtext中包含的机器翻译相关数据集之一。在运行PyTorch教程《使用torchtext进行语言翻译》时,如果因为网络原因无法自动下载该数据集,可以将压缩包解压并放置到torchtext的root目录下以继续运行。
  • Office31件.zip
    优质
    Office31数据集压缩文件.zip包含了一个涵盖31种不同类型的办公文档样本的数据集合,适用于机器学习和深度学习研究。 Office31数据库包含三个域。
  • Enwik9
    优质
    Enwik9是一种广泛使用的文本压缩测试标准,包含大量的随机与结构化数据,用于评估和比较不同压缩算法的性能。 文本压缩专用数据集用于训练和评估文本摘要生成模型的性能。该数据集包含大量文档及其对应的摘要,旨在帮助研究人员开发更高效的文本压缩算法和技术。通过使用这个数据集,可以提高机器对长篇文章进行有效总结的能力,并且促进自然语言处理领域的研究进展。
  • ICDAR2015件.zip
    优质
    这是一个包含ICDAR 2015竞赛相关数据集的压缩文件,适用于文档分析和识别研究领域。 ICDAR 2015数据集包含1000张训练图像和500张测试图像,非常实用。有需要的朋友可以来下载哦!这个资源真的很不错!
  • CCPD2019第一部分
    优质
    CCPD2019压缩包数据集第一部分包含了从中国各地收集到的大量车辆图像及其对应的车牌信息。该数据集旨在支持智能交通系统中的车牌识别研究,促进相关算法的发展与优化。 CCPD2019压缩包数据集可以免网盘下载。由于上传文件大小限制,该数据集被分为13个压缩包。使用7z软件可以提取所有解压后的文件。只需为第一个压缩包支付积分即可获取全部内容。
  • 黄河子流域
    优质
    本压缩包包含详尽的黄河各子流域地理与环境数据,旨在支持水资源管理、生态保护及科学研究。内含高精度地图、流量水质记录等关键信息。 黄河流域的子流域是指黄河干流及其支流所划分出的不同区域。这些子流域在地理、气候和水文特征上各具特色,对于研究黄河流域的水资源管理和生态环境保护具有重要意义。
  • FewRel 1.0 与代码
    优质
    FewRel 1.0数据集与代码压缩包包含了一个专为few-shot关系抽取设计的数据集及其实现代码,旨在促进基于少量样本学习的研究进展。 在自然语言处理(NLP)领域,关系抽取是一项重要的任务,它旨在识别文本中的实体间的关系。近年来,在深度学习的推动下,小样本关系抽取(Few-Shot Relation Extraction, FewRel)成为了一个热门的研究方向。清华大学NLP团队在此方面取得了显著成果,并发布了FewRel1.0数据集及相应的源代码,为研究者提供了一个标准平台进行实验和创新。 FewRel1.0 数据集专为小样本关系抽取设计,在训练、验证与测试集中均包含有限数量的关系类别。主要包括以下三个文件: - `train.csv`:用于模型训练的训练数据集。每个样本包括实体对(头实体,尾实体)、它们之间的关系类型以及所在的句子。在小样本环境下,每种关系类型的标注样本较少,这要求模型能够从少量样例中学习到关系特征。 - `test.csv`:用于评估模型性能的测试数据集。它同样包含了实体对、关系类型和句子信息,但其中的关系类别可能未出现在训练集中。因此,需要确保模型具备良好的泛化能力以应对新出现的关系类型。 - `val.csv`:在训练过程中调整参数所使用的验证数据集。其结构与训练及测试集相同,通常不公开具体关系类型的标签,有助于研究人员采用无监督或半监督学习策略进行研究。 压缩包内的FewRel-master文件夹包含了清华大学NLP团队开发的源代码,实现了一系列基于深度学习的小样本关系抽取模型: - 模型架构:包括使用Transformer和BERT等框架。这些模型能够捕捉文本中的上下文信息,并有效处理小样本情况下的关系抽取任务。 - 数据预处理:涵盖对CSV文件读取、实体及关系编码、句子分词与向量化等工作,以确保为训练做好充分准备。 - 训练与优化:定义损失函数、选择合适的优化器和设置学习率策略等步骤来保障模型在有限的数据集上有效进行学习。 - 评估与预测:确定评价指标(如准确度、召回率及F1值)并实现推理功能,对新样本执行关系抽取任务。 FewRel1.0的发布为小样本关系抽取研究设立了基准,并促进了不同模型之间的比较和改进。通过该数据集和代码资源,研究人员可以深入了解如何在标注样例稀缺的情况下构建有效的模型,并探索迁移学习、元学习等方法的应用以提升小样本环境下的泛化能力。 FewRel1.0 数据集与源码为从事自然语言处理领域特别是关系抽取方向的研究者提供了宝贵的工具。它挑战了传统的大规模标注数据依赖模式,鼓励研究者开发更加高效且具备广泛适用性的模型,从而推动该领域的技术进步。
  • Luna16全部
    优质
    Luna16数据集全部压缩文件包含了一个全面的医学影像数据库,内含用于肺结节检测和分析的研究资料。该集合专为促进人工智能在医疗诊断中的应用而设计。 subset0~subset9的数据集压缩文件可在百度云上获取。由于subset6和subset7为本地上传,并受上传文件大小的限制,这两个数据集分别被分成两个压缩文件。