
数据挖掘与分析面试题目.docx
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本文档汇集了数据挖掘与分析领域的常见面试题,旨在帮助求职者准备相关技术岗位的面试。涵盖了算法、统计学及实际案例解析等内容。
异常值是指样本中的个别观测值显著偏离其余观测值的现象,在统计学里通常指的是与平均值偏差超过两倍标准差的测定值。
在识别连续型变量的异常值方法中,Grubbs test是一种常用的统计检测手段,它假设数据集来自正态分布。该测试适用于未知总体标准差的情况,并且是五种检验法中最优的一种。
聚类分析是指将研究对象划分成相对同质群组的技术,但与分类不同的是,在聚类过程中类别通常是未知的。常见的算法包括层次方法和分区方法等;k-means 算法就是一种典型的分区方法。它首先随机选取 k 个初始中心点,然后根据每个数据点到这些中心的距离进行分配,并重新计算新的聚类中心位置。重复这个过程直到不再有变化为止。
对于SQL查询的问题,要从表A中提取出每位用户访问的第一个URL(按时间最早的),可以使用以下语句创建新表B:
```sql
create table B as select Member_ID, min(Log_time), URL from A group by Member_ID;
```
关于销售数据分析部分:根据给定的销售数据可以看出,周末销售额显著低于工作日。这可能是因为消费者在休息时没有购买需求或产品未能吸引足够的注意力。
针对上述问题,可以制定以下改进计划:
1. 引导顾客形成周末提前备货的习惯。
2. 开展促销活动以提高产品的吸引力和销量。
全部评论 (0)
还没有任何评论哟~


