
数据挖掘实验报告文档.doc
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本文档为数据挖掘课程的实验报告,详细记录了通过Python等工具进行数据分析与模型构建的过程及结果,涵盖数据预处理、特征选择、算法实现等多个方面。
《数据挖掘》 Weka实验报告
姓名:_ 学号:_ 指导教师: 开课学期 2015 至 2016 学年 第二学期 完成日期 2015年6月12日
### 实验目的
基于威斯康辛州乳腺癌原始数据集,使用Weka平台进行分类分析。该数据集包含多种属性信息用于预测样本是否为恶性或良性肿瘤,并通过不同算法比较其性能。
### 实验环境
实验采用Weka平台(由新西兰怀卡托大学开发的机器学习和数据分析软件),并利用威斯康辛州乳腺癌原始数据集进行操作,这些数据可以从UCI Machine Learning Repository获取。Weka使用Java编写而成,在GNU通用公共许可证下发布,适用于各种操作系统。
### 实验步骤
#### 3.1 数据预处理
本实验针对的是威斯康星大学麦迪逊分校提供的乳腺癌数据库(原始版本)。该表包含Sample code number、Clump Thickness等共十一个属性。其中第二项至第十项取值范围为1-10,分类中2代表良性肿瘤,4表示恶性肿瘤。
#### 3.2 数据分析
通过将数据导入Excel进行预处理后转换成CSV格式,并手动添加每一列的标题信息。最终需要保存为ARFF文件以便于Weka平台使用。
具体步骤包括:
- 将从UCI机器学习库下载的数据复制粘贴到Excel中,选择“分列”功能以逗号作为分隔符完成数据导入;
- 在第一行手工添加属性名:Sample code number、Clump Thickness等共十一个字段信息;
- 保存为CSV文件,并使用Weka自带的命令行工具将该文件转换成ARFF格式。
#### .csv -> .arff
在启动Weka后进入“Explorer”模块,选择打开文件功能加载已处理好的乳腺癌数据集.csv。通过内置的功能可以轻松地将其转化为适合于分类算法使用的.arff文件形式。
以上是实验报告的部分内容概述,后续将对具体的数据分析过程和结果进行详细描述与展示。
全部评论 (0)


