Advertisement

讯飞开放平台竞赛:移动设备用户的年龄与性别预测数据集

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
本数据集由讯飞开放平台提供,专为移动设备用户设计,包含大量关于用户年龄和性别的信息,旨在促进相关技术的研究与发展。 赛题数据由训练集、测试集以及事件数据组成。总设备ID超过2万,包含设备信息、APP信息和事件信息。其中device_id为用户的唯一标识符,gender表示用户性别,age表示用户年龄。从中抽取了2万个设备ID作为训练集,并有3千多个设备ID作为测试集,同时会对部分字段进行脱敏处理。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • 优质
    本数据集由讯飞开放平台提供,专为移动设备用户设计,包含大量关于用户年龄和性别的信息,旨在促进相关技术的研究与发展。 赛题数据由训练集、测试集以及事件数据组成。总设备ID超过2万,包含设备信息、APP信息和事件信息。其中device_id为用户的唯一标识符,gender表示用户性别,age表示用户年龄。从中抽取了2万个设备ID作为训练集,并有3千多个设备ID作为测试集,同时会对部分字段进行脱敏处理。
  • 行为.zip
    优质
    本项目旨在通过分析移动设备用户的操作习惯和偏好等行为数据,运用机器学习算法模型来准确预测目标用户的性别及年龄段,为个性化服务提供依据。 资源包含文件:设计报告word+Python代码通过行为习惯对移动用户人口属性(年龄、性别)进行预测。数据集包括约20万用户的记录,并分为12组,同时提供了手机品牌、型号及APP类型等用户行为特征。 步骤如下: 1. 解读数据。 2. 特征工程。 3. 模型调参。 详细介绍可参考相关文献或资料。
  • -
    优质
    本数据集包含不同个体的年龄与性别信息,旨在为用户研究和分析提供基础资料,适用于人口统计、机器学习训练等领域。 年龄性别数据集包含大量关于不同个体的年龄和性别的详细记录。这些数据可用于研究、分析及开发相关应用程序等多种用途。
  • 糖尿病遗传风险挖掘机器学习挑战(含
    优质
    本挑战赛聚焦于利用数据挖掘及机器学习技术评估个体患糖尿病遗传风险。参赛者将基于科大讯飞提供的相关数据集进行模型训练和优化,旨在提升对糖尿病遗传倾向的预测准确率。 赛题数据包括训练集和测试集两部分: - 训练集:包含5070条记录,用于构建预测模型。 - 测试集:包含1000条记录,用于验证模型性能。 训练集中每个样本有9个字段信息: - 性别、出生年份、体重指数、糖尿病家族史、舒张压数值、口服耐糖量测试结果、胰岛素释放实验数据、肱三头肌皮褶厚度测量值和患有糖尿病标识(即标签)。 在此基础上,提供了两种训练策略的机器学习代码供参考: - 官方示例代码 - 决策树实现代码 适用人群:适合初学者使用,帮助他们掌握数据挖掘及机器学习的基本技能。
  • CNN源码
    优质
    这段简介可以描述为:年龄与性别预测的CNN源码提供了一种基于卷积神经网络(CNN)技术进行人脸图像分析的方法,旨在准确地预测个人的年龄和性别。此代码适用于研究、教育及开发相关应用领域。 性别与年龄预测任务通常采用卷积神经网络(CNN)来完成图像分类工作,在此案例中我们使用VGG-16模型进行性别识别。 环境配置:我们需要创建一个virtualenv,并安装以下库文件: Tensorflow == 2.3.0,opencv-python >= 4.2.0.34,opencv-contrib-python >= 4.2.0.34,numpy >= 1.18.3,h5py >= 2.10.0以及matplotlib > = 3.2.1。 数据集:该集合包含了总计有26,580张图像的统计数据与信息。其中包含的主体总数为2,284个个体,并且年龄组/标签数共有八个(分别为0-2岁、4-6岁、8-13岁、15-20岁、25-32岁、38-43岁、48至53岁以及60岁以上)。性别标识信息也包含在内,该数据集是在实际环境中收集的,并且每个主题都有相应的标签。
  • 基于 OpenCV
    优质
    本项目采用OpenCV库,结合深度学习模型,旨在开发一个高效准确的系统,用于检测图像中的人脸并预测其年龄和性别。 资源包括用于年龄预测的age_net.caffemodel和gender_net.caffemodel性别预测模型文件、配置文件deploy_age.prototxt和deploy_gender.prototxt以及包含人脸检测的haarcascade_frontalface_alt_tree.xml文件,下载后可以直接运行。
  • 科大_阿尔茨海默病.zip
    优质
    此ZIP文件包含科大讯飞举办的阿尔茨海默病预测竞赛复赛阶段的数据集,内含用于训练模型以预测该疾病发展的各类患者信息和医学检测结果。 我们使用数据为主试和被试之间的对话文本以及通过工具转换后的音频数据来构建模型,以识别阿尔茨海默病患者(AD)、正常人(CTRL)及轻度认知障碍者(MCI)。
  • 电信流失
    优质
    本数据集专为电信用户流失预测竞赛设计,包含大量客户行为与属性信息,旨在帮助参赛者构建模型以分析用户流失风险。 赛题数据包括训练集和测试集两部分,总数据量超过25万条记录,并包含69个特征字段。为了确保比赛的公平性,将从这些数据中抽取15万条作为训练样本,3万条用于测试。同时会对某些敏感信息进行脱敏处理。 具体来说,以下是一些主要的特征字段: - 客户ID - 地理区域 - 是否双频手机 - 手机是否为翻新机型 - 当前手机的价格 - 手机网络功能情况 - 婚姻状况信息 - 家庭成人人数统计 - 信息库匹配结果 - 预计收入水平 - 信用卡持有状态指示器 - 用户当前设备使用天数 - 在职总月数 - 家庭中唯一订阅者的数量 - 家庭活跃用户数目 ...以及过去六个月的平均每月通话分钟、平均每月呼叫次数和平均月费用,最后是否流失等信息。
  • 电信流失
    优质
    该数据集专为电信用户流失预测竞赛设计,包含大量客户行为和人口统计数据,旨在帮助参赛者建立模型以预测哪些用户可能终止服务。 赛题数据由训练集和测试集组成,总数据量超过25万条记录,并包含69个特征字段。为了确保比赛的公平性,将从中抽取15万条作为训练集,3万条作为测试集,并会对部分字段信息进行脱敏处理。特征字段包括:客户ID、地理区域、是否双频手机、是否翻新机、当前手机价格、手机网络功能、婚姻状况、家庭成人人数、信息库匹配情况、预计收入水平、信用卡持有状态、当前设备使用天数、在职总月数、家庭中唯一订阅者的数量以及家庭活跃用户数等。此外,还包括过去六个月的平均每月使用分钟数和通话次数,以及平均月费用,并标记是否流失。
  • IMDB CROP (00~09)
    优质
    IMDb CROP数据集的这一部分专注于收集0至9岁儿童的面部图像,并标注其年龄、性别信息,为研究者提供详尽的数据资源。 IMDb的人脸数据集包含100个文件夹以及一份标签数据文件,总大小约为6.5G。为了便于传输,该数据集被分成10份上传,本部分包括编号从00到09的数据。