Advertisement

包含2000年至2019年间的英文文献摘要数据集,共16个类别,每个类别包含100篇文献。

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
本数据集包含2000年至2019年间大量英文文献摘要的精选子集,并按照农业(agriculture)、解剖学(anatomy)、商业(business)、化学(chemistry)、经济学(economics)、教育(education)、地质学(geology)等十六个类别进行了细分。每条记录都包含五个组成部分:编号、所属类别、文献标题、摘要内容以及期刊名称。请务必注意,所有数据均为英文。这些摘要内容具备广阔的应用前景,尤其适用于数据挖掘等工程实践。更详细的应用场景和方法可以参考博客文章:https://blog..net/erwugumo/article/details/104610584。为了方便用户进行数据分析,建议使用Python编程语言。若需要更大规模的数据集,请通过QQ咨询:2450520622。该数据集的总规模约为三百万条记录。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • 挖掘/机器学习/本分20002019库,涵盖16100
    优质
    本数据库收录了2000年至2019年间共16类主题的2000篇英文文献摘要,每类含100篇,旨在为数据挖掘、机器学习及文本分类等研究领域提供详实资料。 本数据集为2000年至2019年间大部分英文文献摘要的子集,涵盖了农业、解剖学、商业、化学、经济学、教育学、地质学等十六个类别。每条数据包含五个部分:序号、分类名称、文献标题、摘要和期刊名。请注意,该数据集为英文,并且仅包括摘要内容,适合用于数据分析任务如数据挖掘等工程应用中使用。
  • MSTAR
    优质
    MSTAR数据集是一套包含了十种类别目标的雷达图像集合,广泛应用于地面目标识别与分类的研究领域。 该实验数据来源于美国国防高等研究计划署(DARPA)支持的MSTAR项目所发布的实测SAR地面静止目标数据集。无论是国内还是国际上,针对SAR图像目标识别的研究大多基于此数据集进行。 采集这些数据使用的传感器是高分辨率聚束式合成孔径雷达,其分辨率为0.3m×0.3m,在X波段工作,并采用HH极化方式。经过前期处理后,从原始数据中提取出像素大小为128×128的包含各类目标的切片图像。 该数据集主要由静止车辆的SAR切片图像构成,包括多种不同车型在各个方位角下的目标图像。此数据集中包含了MSTAR计划推荐使用的训练集和测试集。其中,训练集是在雷达工作俯仰角为17度时获取的目标图像数据,并包含三大类:BTR70(装甲运输车)、BMP2(步兵战车)以及T-72坦克;而测试集则涵盖了相同类型的车辆在不同视角下的目标图像。 值得注意的是,各类别中的具体车型还存在不同的型号。尽管这些模型可能在配备上有所差异,但它们的总体散射特性相似。
  • CNN/Daily Mail(简称CNN/DM)作为单句子。
    优质
    CNN/Daily Mail数据集(简称CNN/DM)由多条摘要组成,用于训练和评估新闻文章的自动摘取技术。 CNNDaily Mail(CNNDM)是一个广泛使用的自然语言处理(NLP)数据集,在文本摘要领域具有重要地位。该数据集由CNN和Daily Mail两家新闻网站的新闻文章及其对应的摘要组成,每篇文章的摘要包含多个句子,为生成多句摘要的研究提供了宝贵资源。 文本摘要是通过提取原文的主要内容来生成简短而精确的新版本的技术,通常用于快速了解长篇文章的大致意思。CNNDM数据集的独特之处在于它提供的人工撰写的高质量摘要可以作为模型学习的目标,帮助模型理解如何提取关键信息并生成连贯的总结。 CNNDM数据集规模庞大,训练集中包含286,817篇新闻文章及对应的摘要,为深度学习模型提供了足够的样本进行训练。验证集有13,368条数据用于调整超参数和评估模型性能;测试集则包括了11,487条数据以衡量模型的泛化能力。 在NLP领域中,CNNDM常被用来研究和发展自动文本摘要技术,如抽取式摘要和生成式摘要。近年来,基于Transformer架构(例如BERT、GPT)的深度学习方法在此任务上取得了显著进展。 实际操作时,每篇新闻文章和相应摘要会被作为输入输出进行处理,并利用诸如RNN(循环神经网络)、LSTM(长短时记忆网络)、GRU(门控循环单元)或Transformer等模型训练。为应对多句摘要问题,一些模型采用序列到序列架构并附加注意力机制以聚焦原文中的关键部分。 文件cnndm-pj可能包含CNNDM数据集的预处理结果,例如分词、去除停用词和词性标注等内容,并将原始数据划分成不同的训练、验证和测试集。通过深度学习模型及NLP技术的应用,从该数据集中可以学到如何高效提取新闻文章的核心信息并生成与原文内容相符且精炼的摘要,从而提高信息处理效率。 CNNDM在自动文本摘要领域扮演着重要角色,并推动了相关研究的发展。
  • 加工特征(Machining-feature-dataset):24有1000模型
    优质
    Machining-feature-dataset是一个全面的数据集合,涵盖24种类别,每个类别提供1000个详细模型,为研究和分析提供了丰富的资源。 我们开发了一个新颖的框架,使用称为FeatureNet的深度3D卷积神经网络(3D-CNN),从机械零件的CAD模型中学习加工特征。 FeatureNet能够理解大型3D模型中复杂加工特征形状的分布,并识别有助于自动识别过程的独特特征。为了训练FeatureNet,我们合成了带有标注加工特征的大规模机械零件的3D CAD模型。有关更多详细信息,请参阅我们的相关文献。
  • 和译网页
    优质
    这段简介可以描述为:“包含原文与中文译文对照的网页形式的外文文献资源库,便于读者对比阅读、学习研究。” 网络技术的发展为当今全球性的信息交流与资源共享提供了更多的途径和可能性。人们足不出户便可以了解世界各地的新闻大事;只需轻轻敲击键盘或点击鼠标,即可与千里之外的朋友进行沟通交流。网上通信、浏览、互动以及电子商务已成为现代人生活的一部分。 互联网时代改变了人们的工作和生活方式,其互联性、开放性和共享信息的特点打破了传统传播方式的壁垒,为人类带来了新的机遇。随着计算机和信息技术的发展,社会的进步速度也在不断加快。近年来网页设计技术发展迅速,色彩斑斓且功能丰富的网站成为了网络上一道亮丽的风景线。 为了创建美观实用的网页,深入掌握网站建设的技术至关重要。在建立网站时,我们需要分析其目的、内容、功能及结构,并应用更多的网页设计理念和技术。
  • 常用与分32TXT件)
    优质
    该资源包含了32个常用的数据集合,以TXT格式提供,适用于进行聚类和分类算法的研究与实践。 二维多维不同簇数的点集包括螺旋分布、月牙分布、环形分布等多种类型,共有30余种数据集。
  • YOLO室内场景识(二)4700张图片及16rar
    优质
    本资源提供YOLO室内场景识别数据集第二部分,包含4700张图像和16个类别标签,适用于目标检测与分类研究。 室内场景分类图片数据集2包含5000张图片,分为17个类别。更多详情可参考相关博客文章。数据集可在平台上下载获取。
  • 车牌字符 - 69 - 汉字、字 - 两种
    优质
    本数据集包含69类车牌字符,涵盖汉字、英文字母及阿拉伯数字,适用于识别任务训练与测试,包括清晰图像和复杂背景两类场景。 我们提供了两种字符训练集格式:白字黑底和多种颜色的真实车牌。这些训练集中包含了字母和省份的信息,并且都是个人辛苦整理的成果。希望大家能够一起学习使用,不要因为缺少合适的训练集而感到困扰。
  • 机器学习7特征
    优质
    本项目涉及三种类型的机器学习数据集,每个都具有七个独特的特征。这些数据为模型训练提供了丰富且多维度的信息来源。 这是一组三分类的机器学习数据集,包含7个特征。
  • 20192021有关Radon变换26
    优质
    本资料汇编了2019年至2021年期间发表的关于Radon变换领域的26篇重要英文文献,涵盖该技术在医学成像、计算机视觉等多领域中的应用与进展。 2019年至2021年间发表了关于Radon变换的26篇英文论文。