Advertisement

IJCAI_2018_CTR: IJCAI 2018 阿里妈妈广告点击率预测算法-源码

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
本项目为IJCAI 2018会议中阿里妈妈提交的广告点击率预测算法,提供完整的代码实现。旨在帮助研究者和从业者深入理解CTR预估技术的应用实践。 # IJCAI 2018 阿里妈妈广告预测算法背景 本项目是天池举办的一个比赛,由阿里妈妈与天池大数据众智平台联合发起的广告预测算法大赛。本次参赛人数超过5200人,而我们队伍仅取得了第731名的成绩。最遗憾的是,在准备上传基于CNN模型的结果时,由于队友忘记实名注册导致队伍被强制解散。对此感到无奈和不甘心,但规则就是规则,我们必须遵守并接受这一事实。在难过伤心之后,还是需要将整个项目进行整理总结。 目标:本次比赛以阿里电商平台的广告为研究对象,并提供了淘宝平台的真实交易数据。参赛者需通过人工智能技术构建预测模型来预估用户的购买意向,在给定用户(user)、商品(ad)、检索词(query)、上下文内容(context)、商店(shop)等信息条件下,预测出广告产生购买行为的概率(pCVR),其形式化定义为:pCVR=P(conversion=1 | query, user, ad, context)。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • IJCAI_2018_CTR: IJCAI 2018 广-
    优质
    本项目为IJCAI 2018会议中阿里妈妈提交的广告点击率预测算法,提供完整的代码实现。旨在帮助研究者和从业者深入理解CTR预估技术的应用实践。 # IJCAI 2018 阿里妈妈广告预测算法背景 本项目是天池举办的一个比赛,由阿里妈妈与天池大数据众智平台联合发起的广告预测算法大赛。本次参赛人数超过5200人,而我们队伍仅取得了第731名的成绩。最遗憾的是,在准备上传基于CNN模型的结果时,由于队友忘记实名注册导致队伍被强制解散。对此感到无奈和不甘心,但规则就是规则,我们必须遵守并接受这一事实。在难过伤心之后,还是需要将整个项目进行整理总结。 目标:本次比赛以阿里电商平台的广告为研究对象,并提供了淘宝平台的真实交易数据。参赛者需通过人工智能技术构建预测模型来预估用户的购买意向,在给定用户(user)、商品(ad)、检索词(query)、上下文内容(context)、商店(shop)等信息条件下,预测出广告产生购买行为的概率(pCVR),其形式化定义为:pCVR=P(conversion=1 | query, user, ad, context)。
  • IJCAI-18: IJCAI 2018搜索广转化估比赛的Rank 41方案
    优质
    本段介绍阿里妈妈团队在IJCAI 2018搜索广告转化率预估竞赛中的第四十一名成果,详细阐述了参赛策略和技术细节。 rank41方案 队名: 真香 复赛最终成绩:0.13953 排名 415204 文件说明: - data_preprocess.py: 读取原始文件,进行预处理后生成基础特征文件。 - gen_click_count_feat.py: 生成用户和商品的基础点击统计特征。 - gen_duplicate_click_feat.py: 生成用户重复点击的统计信息及时间差特征。 - gen_mean_value_feat.py: 生成均值统计特征。 - gen_item_ctr_feat.py: 生成转化率特征。 - train.py: 模型训练与预测。 主要特征(按提升大小排序): 1. 重复点击特征 - 参考之前参加的腾讯比赛中的思路,对用户重复点击商品、品牌、类别、商店、城市和页面等进行分析。我们标记了用户的点击位置以及首次点击时间差和最后一次点击的时间差等特。
  • IJCAI-18: 广搜索转化 (Round 1, 排名第58)
    优质
    在IJCAI-18阿里妈妈举办的广告搜索转化率预测竞赛中,经过激烈角逐,我们团队成功进入前10%,最终排名第58位。 IJCAI-18 阿里妈妈搜索广告转化率预测 队名:进复赛就开源 成绩:round1 排名 585204, round2 排名 1125204 文件说明: main.py: 主函数,包括特征提取与功能定义。 EDA_visual.py: 数据可视化分析文件 Bayes code: 贝叶斯平滑代码,可用于预处理并保存为文件以节省时间。 数据分析主要包括数据分布的分析、训练集和测试集的区别以及对数据去重和填补空缺值的操作。通过对数据进行可视化的处理,可以发现特征与转化率之间的关系,这有利于后续特征提取的工作。 主要特征:点击次数统计 原始特征包括用户信息、广告商品信息、上下文信息及店铺信息。根据经验,首先需要统计重要特征的出现频次以及它们之间两两组合的情况,主要包括:用户与商品组合、商品与商店组合、用户与商店组合及其内部的各种组合情况。这里主要使用了pandas中的groupby功能来实现这些操作。
  • IJCAI18_Tianchi_Rank29: IJCAI18-广转化(Rank29代
    优质
    该作品为IJCAI 2018比赛中获得第29名的作品,聚焦于通过机器学习方法提升阿里巴巴妈妈平台的广告点击转化率预测精度。 IJCAI18_Tianchi_Rank29001_lgbEnsemble.py 文件使用了lgbm的10-folds融合加反smigod方法;001_model_lgb.py 文件是用于训练lgbm单模型;001_model_xgb.py 则是一个xgboost单模型文件。此外,还有数据预处理脚本101_process.py、基础特征生成脚本101_basic_feat.py、时间间隔相关特征提取脚本102_trick_feat.py 和统计特征构建脚本103_statistics_feat.py。 另外有参照技术圈涵涵开源代码的301_meng_feat.py,用于挖掘三个list特征的时间差和比率相关的401_timediff_last_next_feat.py 特征文件。501_clickTran_feat.py 文件是关于转化率特性的处理,在复赛阶段被放弃了。 在这些脚本中,有一些经过修改或不再使用的新旧特征对比:例如原本打算挖掘的三个list特性后来没有采用,而是增加了一些新的特征;另外有一个与点击转换相关的特征文件501_clickTran_f也在复赛时未继续使用。
  • IJCAI-18 CVR总结:搜索广转化分析
    优质
    本文为IJCAI-18会议上关于阿里巴巴妈妈团队在搜索广告中的转化率预测研究的总结。该研究探索了如何通过机器学习方法提升广告效果和用户体验,提供了对当前行业挑战和技术趋势的独特见解。 IJCAI-18 阿里妈妈搜索广告转化预测总结 本次比赛以阿里电商广告为研究对象,提供了淘宝平台的海量真实交易数据。参赛选手需要通过人工智能技术构建预测模型来预估用户的购买意向,在给定用户(user)、广告商品(ad)、检索词(query)、上下文内容(context)和商店(shop)等信息的情况下,预测广告产生购买行为的概率(pCVR)。形式化定义为:pCVR = P(conversion=1 | query, user, ad, context, shop)。 结合淘宝平台的业务场景及不同的流量特点,我们定义了以下两类挑战: - 日常转化率预估 - 特殊日期转化率预估 评估指标包括数据挖掘流程中的以下几个关键环节:数据探索与特征使用方案(涵盖业务逻辑和特征覆盖率)、样本采样、过滤处理以及根据特征使用方案构造的各类特征,如基础特征、平稳特征、动态特征、高阶特征及文本偏好等。
  • IJCAI-18搜索广转化复赛第94名方案
    优质
    该文介绍了在IJCAI-18阿里妈妈搜索广告转化预测竞赛中获得优异成绩的算法模型和策略方法,分享了从数据理解到特征工程、模型选择及优化的一系列实践经验和关键洞察。 在IJCAI-18阿里妈妈搜索广告转化预测复赛中获得了第94名的成绩,感谢wzb同学的大力支持。 该比赛基于阿里巴巴的真实交易数据,要求参赛者构建一个模型来预估用户的购买意向。整个方案包含以下步骤:数据清洗、特征提取、模型训练以及模型融合。具体流程如下: 1. **load_data**: 读入原始数据,并进行简单的预处理。 2. **feature_extract**: 提取统计和组合特征,将结果写入中间文件。 3. **gen_train_data**: 将多个中间文件合并成最终的训练测试数据集。 4. **lightGBM_test**: 使用LGB单模型预测。 5. **stacking_lr**: 在比赛后期进行模型堆叠时使用的逻辑回归(lr)模型,由于需要对特征进行one-hot编码处理,所以单独列出此步骤。 6. **stacking_model**: 利用LGB、XGB和RF三种不同类型的机器学习模型构建第一层的堆叠预测。 7. **stacking_2nd**: 构建第二层堆叠模型以进一步提高预测精度。
  • IJCAI-18搜索广转化竞赛:TOP 50方案分析
    优质
    本篇文章对IJCAI-18阿里妈妈搜索广告转化预测竞赛中排名前五十的作品进行了详细解读和对比分析,深入探讨了各类模型在实际业务场景中的应用效果。 IJCAI-18 阿里妈妈搜索广告大赛赛题旨在预测在给定用户(user)、商品(ad)、检索词(query)、上下文内容(context)以及商店(shop)等信息的条件下,广告产生购买行为的概率(pCVR)。初赛阶段的任务是预测普通日期下的广告转化率,而复赛则专注于特殊日期的广告转化率。 在进行这项比赛时需要注意的是数据中的正负样本比例极度不均衡。但是由于使用了logloss评价函数来评估模型性能,因此不适合通过抽样调整训练集中的正负样本比。此外,一些特定于某些算法参数(例如xgboost中用于处理类别不平衡问题的scale_pos_weight)也不宜在此情况下进行修改。 另一个挑战是单一用户的记录数量较少,在整个数据集中有很多用户仅有一条记录,这使得从用户维度挖掘特征变得困难。相比之下,商品相关的特征可能更具价值和实用性。由于初赛与复赛预测的是不同属性日期的数据,因此两者之间的数据分布差异较大。这意味着用于初赛的特征选择方法及模型构建策略在应用于复赛时可能会面临挑战或需要调整。
  • Python在IJCAI18搜索广转化初赛中的应用方案
    优质
    本篇文档介绍了在IJCAI18阿里妈妈搜索广告转化率预测初赛中使用的基于Python的数据分析和机器学习模型构建的应用方案。 IJCAI-18 阿里妈妈搜索广告转化预测初赛方案介绍了在该赛事中的策略和技术细节,重点在于提高搜索广告的点击率和用户转化效率。参赛团队通过分析大量数据、应用机器学习算法以及优化模型来实现目标,在比赛中取得了显著成果。
  • 2018-IJCAI-Top3:巴巴在2018 IJCAI的Top3代
    优质
    这段简介可以这样写:“2018-IJCAI-Top3”是阿里巴巴在2018年国际人工智能联合会议(IJCAI)上获得前三名的优秀代码项目,展示了公司在AI领域的卓越成果。 2018年IJCAI阿里巴巴的前三名代码现已开放源码,并详细解释了所有功能工程部分。点击率估算问题是广告算法领域中的一个经典且有价值的问题;目前,业界已经为稳定流量下的点击率估算问题找到了较为成熟的解决方案。 然而,在促销期间异常流量中准确地估算点击率仍然是一个挑战性的问题。我们对异常流量变化的数据进行了探索性的分析,并构建了销售量、价格和展示时间的特征。基于数据分布的分析结果,我们创建了四个不同的训练集,并使用集成学习和神经网络模型进行建模。 我们的离线验证策略是通过评估促销期间上午最后两小时内的点击率来进行的;评价指标包括AUC(Area Under Curve)与Logloss。在特征工程方面,涵盖了用户-商品/店铺/品牌、城市用户等特征构建,并且还考虑了高阶交互作用以及时间戳特性等因素。 此项目旨在寻找一种稳定可靠的方法来估算促销期间异常流量中的点击率问题。
  • 2018年讯飞广营销.zip
    优质
    该资料为2018年版本,包含了针对讯飞广告平台优化的点击率预测算法模型和相关代码,适用于研究与开发人员参考学习。 2018年讯飞广告营销算法竞赛的最终目标是一个分类任务,评价指标为logloss。尽管我之前处理过一些分类问题,但这次的任务难度较大,尤其是在数据量大的情况下。以往使用CPU版本的XGBoost和Stacking模型可以得到不错的性能与时间消耗之间的平衡,但在本次大赛中仅靠CPU运行这些工具需要花费更多的时间。因此,我重新编译安装了GPU版本的XGBoost,并首次尝试使用LightGBM(支持GPU),其在多个方面都优于XGBoost,最终选择了LightGBM模型。 讯飞AI营销云随着业务的发展积累了大量的广告和用户数据,如何有效地利用这些数据预测用户的点击概率是大数据技术应用于精准营销中的关键问题。这也是所有智能营销平台需要掌握的核心技能之一。本次比赛提供了大量来自讯飞AI营销云的广告投放数据,参赛者需通过人工智能技术构建模型来预估用户对特定广告的点击可能性,即在给定与广告、媒体、用户和上下文内容等相关的条件下进行预测。