Advertisement

IJCAI-18阿里妈妈搜索广告转化预测复赛第94名方案

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
该文介绍了在IJCAI-18阿里妈妈搜索广告转化预测竞赛中获得优异成绩的算法模型和策略方法,分享了从数据理解到特征工程、模型选择及优化的一系列实践经验和关键洞察。 在IJCAI-18阿里妈妈搜索广告转化预测复赛中获得了第94名的成绩,感谢wzb同学的大力支持。 该比赛基于阿里巴巴的真实交易数据,要求参赛者构建一个模型来预估用户的购买意向。整个方案包含以下步骤:数据清洗、特征提取、模型训练以及模型融合。具体流程如下: 1. **load_data**: 读入原始数据,并进行简单的预处理。 2. **feature_extract**: 提取统计和组合特征,将结果写入中间文件。 3. **gen_train_data**: 将多个中间文件合并成最终的训练测试数据集。 4. **lightGBM_test**: 使用LGB单模型预测。 5. **stacking_lr**: 在比赛后期进行模型堆叠时使用的逻辑回归(lr)模型,由于需要对特征进行one-hot编码处理,所以单独列出此步骤。 6. **stacking_model**: 利用LGB、XGB和RF三种不同类型的机器学习模型构建第一层的堆叠预测。 7. **stacking_2nd**: 构建第二层堆叠模型以进一步提高预测精度。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • IJCAI-18广94
    优质
    该文介绍了在IJCAI-18阿里妈妈搜索广告转化预测竞赛中获得优异成绩的算法模型和策略方法,分享了从数据理解到特征工程、模型选择及优化的一系列实践经验和关键洞察。 在IJCAI-18阿里妈妈搜索广告转化预测复赛中获得了第94名的成绩,感谢wzb同学的大力支持。 该比赛基于阿里巴巴的真实交易数据,要求参赛者构建一个模型来预估用户的购买意向。整个方案包含以下步骤:数据清洗、特征提取、模型训练以及模型融合。具体流程如下: 1. **load_data**: 读入原始数据,并进行简单的预处理。 2. **feature_extract**: 提取统计和组合特征,将结果写入中间文件。 3. **gen_train_data**: 将多个中间文件合并成最终的训练测试数据集。 4. **lightGBM_test**: 使用LGB单模型预测。 5. **stacking_lr**: 在比赛后期进行模型堆叠时使用的逻辑回归(lr)模型,由于需要对特征进行one-hot编码处理,所以单独列出此步骤。 6. **stacking_model**: 利用LGB、XGB和RF三种不同类型的机器学习模型构建第一层的堆叠预测。 7. **stacking_2nd**: 构建第二层堆叠模型以进一步提高预测精度。
  • IJCAI-18: 广 (Round 1, 排58)
    优质
    在IJCAI-18阿里妈妈举办的广告搜索转化率预测竞赛中,经过激烈角逐,我们团队成功进入前10%,最终排名第58位。 IJCAI-18 阿里妈妈搜索广告转化率预测 队名:进复赛就开源 成绩:round1 排名 585204, round2 排名 1125204 文件说明: main.py: 主函数,包括特征提取与功能定义。 EDA_visual.py: 数据可视化分析文件 Bayes code: 贝叶斯平滑代码,可用于预处理并保存为文件以节省时间。 数据分析主要包括数据分布的分析、训练集和测试集的区别以及对数据去重和填补空缺值的操作。通过对数据进行可视化的处理,可以发现特征与转化率之间的关系,这有利于后续特征提取的工作。 主要特征:点击次数统计 原始特征包括用户信息、广告商品信息、上下文信息及店铺信息。根据经验,首先需要统计重要特征的出现频次以及它们之间两两组合的情况,主要包括:用户与商品组合、商品与商店组合、用户与商店组合及其内部的各种组合情况。这里主要使用了pandas中的groupby功能来实现这些操作。
  • IJCAI-18广:TOP 50分析
    优质
    本篇文章对IJCAI-18阿里妈妈搜索广告转化预测竞赛中排名前五十的作品进行了详细解读和对比分析,深入探讨了各类模型在实际业务场景中的应用效果。 IJCAI-18 阿里妈妈搜索广告大赛赛题旨在预测在给定用户(user)、商品(ad)、检索词(query)、上下文内容(context)以及商店(shop)等信息的条件下,广告产生购买行为的概率(pCVR)。初赛阶段的任务是预测普通日期下的广告转化率,而复赛则专注于特殊日期的广告转化率。 在进行这项比赛时需要注意的是数据中的正负样本比例极度不均衡。但是由于使用了logloss评价函数来评估模型性能,因此不适合通过抽样调整训练集中的正负样本比。此外,一些特定于某些算法参数(例如xgboost中用于处理类别不平衡问题的scale_pos_weight)也不宜在此情况下进行修改。 另一个挑战是单一用户的记录数量较少,在整个数据集中有很多用户仅有一条记录,这使得从用户维度挖掘特征变得困难。相比之下,商品相关的特征可能更具价值和实用性。由于初赛与复赛预测的是不同属性日期的数据,因此两者之间的数据分布差异较大。这意味着用于初赛的特征选择方法及模型构建策略在应用于复赛时可能会面临挑战或需要调整。
  • IJCAI-18: IJCAI 2018广估比的Rank 41
    优质
    本段介绍阿里妈妈团队在IJCAI 2018搜索广告转化率预估竞赛中的第四十一名成果,详细阐述了参赛策略和技术细节。 rank41方案 队名: 真香 复赛最终成绩:0.13953 排名 415204 文件说明: - data_preprocess.py: 读取原始文件,进行预处理后生成基础特征文件。 - gen_click_count_feat.py: 生成用户和商品的基础点击统计特征。 - gen_duplicate_click_feat.py: 生成用户重复点击的统计信息及时间差特征。 - gen_mean_value_feat.py: 生成均值统计特征。 - gen_item_ctr_feat.py: 生成转化率特征。 - train.py: 模型训练与预测。 主要特征(按提升大小排序): 1. 重复点击特征 - 参考之前参加的腾讯比赛中的思路,对用户重复点击商品、品牌、类别、商店、城市和页面等进行分析。我们标记了用户的点击位置以及首次点击时间差和最后一次点击的时间差等特。
  • IJCAI-18 CVR总结:广分析
    优质
    本文为IJCAI-18会议上关于阿里巴巴妈妈团队在搜索广告中的转化率预测研究的总结。该研究探索了如何通过机器学习方法提升广告效果和用户体验,提供了对当前行业挑战和技术趋势的独特见解。 IJCAI-18 阿里妈妈搜索广告转化预测总结 本次比赛以阿里电商广告为研究对象,提供了淘宝平台的海量真实交易数据。参赛选手需要通过人工智能技术构建预测模型来预估用户的购买意向,在给定用户(user)、广告商品(ad)、检索词(query)、上下文内容(context)和商店(shop)等信息的情况下,预测广告产生购买行为的概率(pCVR)。形式化定义为:pCVR = P(conversion=1 | query, user, ad, context, shop)。 结合淘宝平台的业务场景及不同的流量特点,我们定义了以下两类挑战: - 日常转化率预估 - 特殊日期转化率预估 评估指标包括数据挖掘流程中的以下几个关键环节:数据探索与特征使用方案(涵盖业务逻辑和特征覆盖率)、样本采样、过滤处理以及根据特征使用方案构造的各类特征,如基础特征、平稳特征、动态特征、高阶特征及文本偏好等。
  • Python在IJCAI18广中的应用
    优质
    本篇文档介绍了在IJCAI18阿里妈妈搜索广告转化率预测初赛中使用的基于Python的数据分析和机器学习模型构建的应用方案。 IJCAI-18 阿里妈妈搜索广告转化预测初赛方案介绍了在该赛事中的策略和技术细节,重点在于提高搜索广告的点击率和用户转化效率。参赛团队通过分析大量数据、应用机器学习算法以及优化模型来实现目标,在比赛中取得了显著成果。
  • IJCAI_2018_CTR: IJCAI 2018 广点击率算法-源码
    优质
    本项目为IJCAI 2018会议中阿里妈妈提交的广告点击率预测算法,提供完整的代码实现。旨在帮助研究者和从业者深入理解CTR预估技术的应用实践。 # IJCAI 2018 阿里妈妈广告预测算法背景 本项目是天池举办的一个比赛,由阿里妈妈与天池大数据众智平台联合发起的广告预测算法大赛。本次参赛人数超过5200人,而我们队伍仅取得了第731名的成绩。最遗憾的是,在准备上传基于CNN模型的结果时,由于队友忘记实名注册导致队伍被强制解散。对此感到无奈和不甘心,但规则就是规则,我们必须遵守并接受这一事实。在难过伤心之后,还是需要将整个项目进行整理总结。 目标:本次比赛以阿里电商平台的广告为研究对象,并提供了淘宝平台的真实交易数据。参赛者需通过人工智能技术构建预测模型来预估用户的购买意向,在给定用户(user)、商品(ad)、检索词(query)、上下文内容(context)、商店(shop)等信息条件下,预测出广告产生购买行为的概率(pCVR),其形式化定义为:pCVR=P(conversion=1 | query, user, ad, context)。
  • IJCAI18_Tianchi_Rank29: IJCAI18-广(Rank29代码)
    优质
    该作品为IJCAI 2018比赛中获得第29名的作品,聚焦于通过机器学习方法提升阿里巴巴妈妈平台的广告点击转化率预测精度。 IJCAI18_Tianchi_Rank29001_lgbEnsemble.py 文件使用了lgbm的10-folds融合加反smigod方法;001_model_lgb.py 文件是用于训练lgbm单模型;001_model_xgb.py 则是一个xgboost单模型文件。此外,还有数据预处理脚本101_process.py、基础特征生成脚本101_basic_feat.py、时间间隔相关特征提取脚本102_trick_feat.py 和统计特征构建脚本103_statistics_feat.py。 另外有参照技术圈涵涵开源代码的301_meng_feat.py,用于挖掘三个list特征的时间差和比率相关的401_timediff_last_next_feat.py 特征文件。501_clickTran_feat.py 文件是关于转化率特性的处理,在复赛阶段被放弃了。 在这些脚本中,有一些经过修改或不再使用的新旧特征对比:例如原本打算挖掘的三个list特性后来没有采用,而是增加了一些新的特征;另外有一个与点击转换相关的特征文件501_clickTran_f也在复赛时未继续使用。
  • 下沉市场分析报:揭秘你不了解的小镇青年--201908.pdf
    优质
    这份由阿里妈妈发布的《下沉市场分析报告》深入剖析了中国三四线城市及农村地区的消费趋势与特点,着重揭示了“小镇青年”的消费行为及其背后的文化特征。报告基于2019年数据,为品牌和商家提供了解并把握这些新兴市场的关键视角。 下沉市场洞察报告:你不懂的小镇青年-阿里妈妈-201908.pdf 这份报告深入分析了中国三四线城市及以下市场的消费趋势与消费者行为特征,特别聚焦于被称为“小镇青年”的年轻群体,揭示他们独特的消费需求和偏好。
  • 基于消费者的视角:品牌数字型策略-天猫、贝恩与联合发布-201904.pdf
    优质
    这份由天猫、贝恩和阿里妈妈于2019年发布的报告,深入探讨了从消费者角度出发的品牌数字化转型策略,为品牌提供了宝贵的洞察和指导。 《以消费者为中心的品牌数字化转型》是天猫、贝恩咨询公司与阿里妈妈合作编写的一份报告,发布于2019年4月。该报告深入探讨了品牌如何通过数字技术更好地理解和满足消费者的需要,并在此基础上实现成功的数字化转型。文档详细分析了当前市场趋势以及未来发展方向,为希望在数字经济时代取得竞争优势的品牌提供了宝贵的见解和策略建议。