本项目专注于通过大数据分析技术深入挖掘和解析超市零售数据,旨在优化库存管理、提升销售预测精度及增强顾客购物体验。
超市零售数据分析-大数据项目
本实验使用的数据来源于国内某家超市2012年8月1日至2013年8月1日一年内的交易记录,包括了总计812,847笔交易、涉及的商品数量为2,893,385件以及活跃顾客人数达20,154名。该数据集包含了三个独立的数据集合。
**一、交易概况**
此数据集存储在HDFS(分布式文件系统)上,路径为/data/13/2/sales_head/sales_head.csv,各字段以制表符分隔;同时也在Hive数据库中存放了相同内容的表格, 表名为 bigdata_cases.retail_sales_head。以下是各个字段的具体定义:
- `BillId`:交易标识符
- `CustId`:顾客会员身份编号(非会员则为空)
- `Quantity`:每笔交易中的商品种类数量
- `TransTime`:交易发生的时间点
- `OrigTotalPrice`:原始总价,可能包括分币单位的精确值。
- `Pay` :支付金额
- `Change`: 改变量(即找零部分)
- `ActualTotalPrice`: 实际结算价,仅保留到角位。
数据集样本前5行如下:
```
00034121002436593 600120168 3 2012-08-01 07:46:10 8.84 10 1.2 8.8
```
**二、交易明细**
该数据集合同样存储在HDFS上,路径为/data/13/2/sales_detail/sales_detail.csv;同时也在Hive数据库中以 bigdata_cases.retail_sales_detail 的形式存在。以下是各字段的定义:
- `BillId`: 代表每笔交易的独特标识符
- `RowNo`:在该笔交易中的位置编号,从1开始计数。
- `TransTime` : 精确到秒的交易时间记录
- `GoodId`: 商品唯一识别码
- `Barcode`: 条形码信息
- `GoodName`: 商品名称
- `Unit`: 记录商品单位(如斤、个等)
- `Quantity`:购买数量
- `OrigUnitPrice`, `OrigTotalPrice`, `ActualUnitPrice`, 和`ActualTotalPrice`: 分别代表原始单价,总价以及实际结算价。
数据集样本前5行如下:
```
00034121002436593 1 2012-08-01 07:45:38 5440483 苦瓜(一级) 公斤
```
**三、商品信息**
此数据集在HDFS上的路径为/data/13/2/good/good.csv,同时也在Hive数据库中以 bigdata_cases.retail_good 的形式存在。以下是各字段的定义:
- `GoodId`:商品唯一标识符
- `Category1Name`: 商品所属的大类名称
- `Category2Name`, `Category3Name`, 和`Category4Name`: 分别代表更细分类别的名称。
- `BrandName`: 品牌名称
- `GoodName`: 产品全称
数据集样本前5行如下:
```
5110698 红枣味 酸奶(红枣) 盒 光明酸牛奶(红枣)
```