Advertisement

Sophos-ReversingLabs提供2000万个样本数据集。

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
该存储库中的代码生成了可存储在s3://sorel-20m/09-DEC-2020/baselines的成果。 此代码依赖于通过Amazon S3提供的SOREL数据集,该数据集位于s3://sorel-20m/09-DEC-2020/processed-data/。 为了训练lightGBM模型,您可以利用s3://sorel-20m/09-DEC-2020/lightGBM-features/提供的npz文件,或者使用包含在此处的脚本从处理后的数据中检索所需的相应文件。 如果您在个人研究中应用此代码或这些数据,请务必使用以下引用来注明我们的论文:“SOREL-20M:用于恶意PE检测的大规模基准数据集”,引用信息为:@misc{harang2020sorel20m, title={SOREL-20M: A Large Scale Benchmark Dataset for Malicious PE Detection}.

全部评论 (0)

还没有任何评论哟~
客服
客服
  • SOREL-20M: Sophos-ReversingLabs2000
    优质
    SOREL-20M是由Sophos和ReversingLabs联合创建的大型恶意软件样本数据库,包含超过2000万个独特文件,旨在促进恶意软件分析与研究。 索尔L-20M Sophos-ReversingLabs 2000万数据集存储库包含的代码生成了可在s3://sorel-20m/09-DEC-2020/baselines中访问的结果,该代码依赖于可通过Amazon S3在s3://sorel-20m/09-DEC-2020/processed-data/获得的SOREL数据集。为了训练lightGBM模型,您可以使用s3://sorel-20m/09-DC-2020/lightGBM-features提供的npz文件,或者通过此处包含的脚本从处理后的数据中提取所需的文件。 如果您在自己的研究中使用此代码或数据,请引用我们的论文:“SOREL-20M:用于恶意PE检测的大规模基准数据集”。引用格式为: @misc{harang2020sorel20m, title={SOREL-20M: A Large Scale Benchmark Dataset for Malicious PE Detection}}
  • MNIST,含6字训练及1测试
    优质
    简介:MNIST数据集包含手写数字图像,用于机器学习模型训练与验证。该数据集包括6万张训练图像和1万张测试图像,每幅图像是28x28像素的手写数字。 MNIST数据集包含6万个数字的训练集和1万个数字的测试集。
  • 2000-2022年土地
    优质
    这段土地数据样本涵盖了从2000年至2022年的详细土地使用和变化情况,为研究中国近二十年的土地政策、城市扩张及生态环境变迁提供了宝贵的数据支持。 土地数据样本涵盖了2000年至2022年的资料。
  • FlyingChairs-Test (前30
    优质
    FlyingChairs-Test数据集包含前30个测试样本,主要用于光学流估计研究,每个样本包括两幅图像及其地面真实流动场。 用于FlowNet和FlowNet2的模型测试的数据集仅包含原始数据集中前30个样本对,而整个数据集共有22872个样本对。论文讲解可以在相关博客文章中找到。
  • 车辆保险理赔(逾6
    优质
    本数据集包含超过六万个车辆保险理赔案例,涵盖多种详细信息如事故类型、损失程度及赔偿金额等,旨在支持保险行业分析与模型训练。 车险理赔数据包括了6万多样本的信息:veh_value(车辆价值)、exposure(保险时间长度)、clm(是否发生过索赔,1代表有索赔记录,0代表无索赔记录)、numclaims(索赔次数)、claimcst0(第一次索赔的费用金额)、veh_body(车辆类型)、veh_age(车辆年龄)、gender(被保险人性别)、area(地区)以及agecat(年龄类别)。
  • KITTI
    优质
    KITTI数据集是一款在计算机视觉领域广泛使用的评测工具,专注于评价无人驾驶汽车及立体视觉、视觉定位等技术性能,包含多种交通场景下的高清图像和点云数据。 在计算机视觉和自动驾驶领域,Kitti(Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago)数据集是极具影响力的资源之一。该数据集由德国卡尔斯鲁厄理工学院和芝加哥丰田技术研究所联合创建,主要用于评估并推动自动驾驶车辆的视觉感知能力。本段落将围绕“Kitti数据集小样”进行深入探讨,旨在帮助初学者理解和掌握其基本结构、内容以及如何利用这些数据进行研究与开发。 Kitti数据集的核心价值在于它提供了一种真实世界的环境模拟,包括高精度的三维激光雷达(LiDAR)数据、多视图彩色图像和同步的GPSIMU数据等。这些数据使得研究人员能够测试并优化各种算法,如目标检测、语义分割、深度估计及立体匹配等。在我们得到的数据小样中,虽然可能只是完整数据集的一部分,但仍然包含了一些关键组件,例如图像与LiDAR数据,这为我们了解和实践Kitti数据集提供了宝贵的起点。 Kitti数据集分为多个子任务,其中最为知名的包括: 1. **对象检测**:该任务涵盖对道路上的车辆、行人及骑车者的二维和三维检测。数据集包含了不同天气条件下的图像,以增强算法的鲁棒性。 2. **道路分割**:也称为语义分割,目的是将图像划分为不同的区域,例如路面、行人与车辆等。这对于理解车辆周围的环境至关重要。 3. **深度估计**:通过多视图几何技术挑战了在估计真实世界深度方面的性能。 4. **立体匹配**:该任务要求算法在两个不同视角的图像中找到对应像素,以提供三维重建的信息。 5. **运动估计**:通过对连续帧进行分析来计算相机的运动轨迹。这对于自动驾驶系统的定位和导航至关重要。 对于“data”这个压缩包子文件,我们可以假设它包含上述任务的一些实例数据。例如,可能会有图像文件(如.png或.jpeg)用于视觉处理以及点云数据文件(如.bin或.txt)用于LiDAR数据处理。为了充分利用这些数据,我们需要相应的读取和处理工具,例如Pandas、OpenCV及numpy等Python库。 在实际应用中,我们可以按照以下步骤操作: 1. 解压“data”文件以获取原始数据。 2. 针对不同任务选择合适的数据子集,如图像文件或点云数据。 3. 使用编程语言(如Python)加载数据并进行预处理,例如图像归一化及点云坐标转换等。 4. 应用现有的算法模型进行训练或测试。例如使用Faster R-CNN进行对象检测或是SSD实时目标检测。 5. 根据Kitti提供的评价指标评估模型性能,如IoU(Intersection over Union)或Mean Absolute Error(均方误差)。 6. 结合实际需求不断调整和优化模型参数以提升算法性能。 总结来说,Kitti数据集小样是探索并开发自动驾驶视觉算法的理想平台。尽管只是部分数据集内容,但它包含了丰富的信息,足以让我们深入了解自动驾驶的视觉挑战,并推动相关技术的进步。无论是研究人员还是开发者都可以从中获益,通过实践加深对数据集的理解进而推进计算机视觉技术在自动驾驶领域的广泛应用。
  • WiderPerson(密行人检测)Yolov8格式,包含8000训练、1000验证和4382测试
    优质
    本数据集为基于YOLOv8的WiderPerson密集行人检测项目设计,含8000张训练图像、1000张验证图像及4382张测试图像,旨在提升复杂场景下的行人识别精度。 WiderPerson数据集是一个用于行人检测的基准数据集,专门针对拥挤场景设计。该数据集由中国科学院自动化研究所的生物测定和安全研究中心(CBSR)以及国家模式识别实验室(NLPR)共同发布。与许多其他行人检测数据集不同的是,WiderPerson的数据图像来源于多种不同的场景,并不仅仅局限于交通环境,这使得它在处理多样性和复杂性方面具有显著优势。 该数据集中共有13,382张图片,标注了大约40万个不同程度遮挡的人体样本。这些图片被随机分为训练、验证和测试三个子集,分别包含8,000张、1,000张以及4,382张图像。标注信息包含了各种行人类型,包括正常行走的行人、骑自行车者、部分被遮挡的身体部位、人形物体以及其他难以区分的人群聚集情况等,从而能够全面评估在真实场景中行人检测算法的表现。 值得注意的是,与CityPersons和WIDER FACE数据集类似,在WiderPerson测试集中提供的图像没有公开标注文件。
  • AISHELL-1
    优质
    AISHELL-1样本数据集是由数小时高质量普通话录音组成,包含数千句子及词汇,旨在促进语音识别技术的研究与开发。 包括 AISHELL-1_sample 数据集 和 词典。
  • 官方的COCO验证
    优质
    COCO数据集验证集是由官方提供的大规模图像标注数据集的一部分,包含数千张图片及其详细标签信息,适用于评估目标检测与分割算法性能。 官方提供的COCO数据集中包含验证集部分。
  • 酒店2000练习(2)
    优质
    本资料集包含一家酒店超过两千万元人民币交易记录的数据集合,详细记录了各类消费信息和客户偏好,为深入分析及预测提供有力支持。 开放资源共享进步!本数据仅供练习数据库使用,适合娱乐学习之用,请勿用于其他目的。我采用的将CSV数据导入SQL2005的方法是:首先将其转换为Access数据库格式,然后再从Access中导出至SQL2005表内。此数据对于进行并发操作测试和大数据量查询优化非常有用。 由于文件上传大小限制的影响,该数据被分为两部分发布,这是第一部分(part1),包含约200万条记录。在此前未作详细说明的情况下,特地向大家致歉!