
电子商务:京东、苏宁和国美的全站商品及评论数据采集分析
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本研究聚焦于中国三大电商巨头——京东、苏宁和国美,深入剖析其全站商品信息与用户评价数据,旨在揭示行业趋势,为市场策略提供决策依据。
在抓取京东、苏宁和国美的全站数据过程中,主要获取了商品的价格、名称、类别、描述以及评论文本、评论时间、点赞数和评论人等信息。最终共收集了大约1000万个商品的链接,并从这些链接中提取到了约8000万条的商品及评论数据。
在处理大量抓取的数据时,首先通过布隆过滤器进行初步去重操作。但后来发现这种方法过于复杂,于是采用了另一种更为简便的方法来解决数据重复的问题:利用每个商品所属的大类别来进行区分和筛选。例如,“手机里的苹果”与“水果里的苹果”,尽管名称相同,但由于它们属于不同的大类目下,因此不会被视为重复项;同样地,在评论中也应用了这一方法实现去重。
在技术方案方面,京东的数据抓取采用了IP代理池结合Selenium工具,并将收集到的信息存储于MongoDB数据库当中。
全部评论 (0)
还没有任何评论哟~


