数据挖掘导论-含答案pdf中文版
分享到:
数据挖掘导论全面介绍了数据挖掘的理论和方法,旨在为读者提供将数据挖掘应用于实际问题所必需的知识数据挖掘是一种技术,它将传统的数据分析方法与处理大量数据的复杂算法相结合。数据挖掘为探查和分析新的数据类型以及用新方法分析旧有数据类型提供了令人振奋的机会。小编推荐的这本数据挖掘导论完整版涵盖五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题都包含两章:前面一章讲述基本概念、代表性算法和评估技术,后面一章较深入地讨论高级概念和算法。目的是使读者在透彻地理解数据挖掘基础的同时,还能了解更多重要的高级主题。此外,书中还提供了大量示例、图表和习题。3322软件站分享的这本数据挖掘导论完整版适合作为相关专业高年级本科生和研究生数据挖掘课程的教材,同时也可作为数据挖掘研究和应用开发人员的参考书。
斯坦巴赫(Michael.Steinbach)明尼苏达大学计算机与工程系研究员,在读博士。
库玛尔(Vipin Kumar)明尼苏达大学计算机科学与工程系主任,曾任美国陆军高性能计算研究中心主任。他拥有马里兰大学博士学位,是数据挖掘和高性能计算方面的专家,IEEE会士。
范明,郑州大学信息工程学院教授,中国计算机学会数据库专业委员会委员、人工智能与模式识别专业委员会委员,长期从事计算机软件与理论教学和研究。先后发表论史40余篇。
范宏建澳大利亚墨尔本大学计算机科学博士。先后在WWW、PAKDD、RSFDGrC、IEEE.GrC和Australian.AI等国际学术会议和IEEE.Transactions.on.Knowledge.and.Data.Engineering发表论文10余篇。目前是澳大利亚AUSTRAC的高级分析师。
第1章 绪论 1
1.1 什么是数据挖掘 2
1.2 数据挖掘要解决的问题 2
1.3 数据挖掘的起源 3
1.4 数据挖掘任务 4
1.5 本书的内容与组织 7
文献注释 7
参考文献 8
习题 10
第2章 数据 13
2.1 数据类型 14
2.1.1 属性与度量 15
2.1.2 数据集的类型 18
2.2 数据质量 22
2.2.1 测量和数据收集问题 22
2.2.2 关于应用的问题 26
2.3 数据预处理 27
2.3.1 聚集 27
2.3.2 抽样 28
2.3.3 维归约 30
2.3.4 特征子集选择 31
2.3.5 特征创建 33
2.3.6 离散化和二元化 34
2.3.7 变量变换 38
2.4 相似性和相异性的度量 38
2.4.1 基础 39
2.4.2 简单属性之间的相似度和相异度 40
2.4.3 数据对象之间的相异度 41
2.4.4 数据对象之间的相似度 43
2.4.5 邻近性度量的例子 43
2.4.6 邻近度计算问题 48
2.4.7 选取正确的邻近性度量 50
文献注释 50
参考文献 52
习题 53
第3章 探索数据 59
3.1 鸢尾花数据集 59
3.2 汇总统计 60
3.2.1 频率和众数 60
3.2.2 百分位数 61
3.2.3 位置度量:均值和中位数 61
3.2.4 散布度量:极差和方差 62
3.2.5 多元汇总统计 63
3.2.6 汇总数据的其他方法 64
3.3 可视化 64
3.3.1 可视化的动机 64
3.3.2 一般概念 65
3.3.3 技术 67
3.3.4 可视化高维数据 75
3.3.5 注意事项 79
3.4 OLAP和多维数据分析 79
3.4.1 用多维数组表示鸢尾花数据 80
3.4.2 多维数据:一般情况 81
3.4.3 分析多维数据 82
3.4.4 关于多维数据分析的最后评述 84
文献注释 84
参考文献 85
习题 86
第4章 分类:基本概念、决策树与模型评估 89
4.1 预备知识 89
4.2 解决分类问题的一般方法 90
4.3 决策树归纳 92
4.3.1 决策树的工作原理 92
4.3.2 如何建立决策树 93
4.3.3 表示属性测试条件的方法 95
4.3.4 选择最佳划分的度量 96
4.3.5 决策树归纳算法 101
4.3.6 例子:Web机器人检测 102
4.3.7 决策树归纳的特点 103
4.4 模型的过分拟合 106
4.4.1 噪声导致的过分拟合 107
4.4.2 缺乏代表性样本导致的过分拟合 109
4.4.3 过分拟合与多重比较过程 109
4.4.4 泛化误差估计 110
4.4.5 处理决策树归纳中的过分拟合 113
4.5 评估分类器的性能 114
4.5.1 保持方法 114
4.5.2 随机二次抽样 115
4.5.3 交叉验证 115
4.5.4 自助法 115
4.6 比较分类器的方法 116
4.6.1 估计准确度的置信区间 116
4.6.2 比较两个模型的性能 117
4.6.3 比较两种分类法的性能 118
文献注释 118
参考文献 120
习题 122
第5章 分类:其他技术 127
5.1 基于规则的分类器 127
5.1.1 基于规则的分类器的工作原理 128
5.1.2 规则的排序方案 129
5.1.3 如何建立基于规则的分类器 130
5.1.4 规则提取的直接方法 130
5.1.5 规则提取的间接方法 135
5.1.6 基于规则的分类器的特征 136
5.2 最近邻分类器 137
5.2.1 算法 138
5.2.2 最近邻分类器的特征 138
5.3 贝叶斯分类器 139
5.3.1 贝叶斯定理 139
5.3.2 贝叶斯定理在分类中的应用 140
5.3.3 朴素贝叶斯分类器 141
5.3.4 贝叶斯误差率 145
5.3.5 贝叶斯信念网络 147
5.4 人工神经网络 150
5.4.1 感知器 151
5.4.2 多层人工神经网络 153
5.4.3 人工神经网络的特点 155
5.5 支持向量机 156
5.5.1 最大边缘超平面 156
5.5.2 线性支持向量机:可分情况 157
5.5.3 线性支持向量机:不可分情况 162
5.5.4 非线性支持向量机 164
5.5.5 支持向量机的特征 168
5.6 组合方法 168
5.6.1 组合方法的基本原理 168
5.6.2 构建组合分类器的方法 169
5.6.3 偏倚-方差分解 171
5.6.4 装袋 173
5.6.5 提升 175
5.6.6 随机森林 178
5.6.7 组合方法的实验比较 179
5.7 不平衡类问题 180
5.7.1 可选度量 180
5.7.2 接受者操作特征曲线 182
5.7.3 代价敏感学习 184
5.7.4 基于抽样的方法 186
5.8 多类问题 187
文献注释 189
参考文献 190
习题 193
第6章 关联分析:基本概念和算法 201
6.1 问题定义 202
6.2 频繁项集的产生 204
6.2.1 先验原理 205
6.2.2 Apriori算法的频繁项集产生 206
6.2.3 候选的产生与剪枝 208
6.2.4 支持度计数 210
6.2.5 计算复杂度 213
6.3 规则产生 215
6.3.1 基于置信度的剪枝 215
6.3.2 Apriori算法中规则的产生 215
6.3.3 例:美国国会投票记录 217
6.4 频繁项集的紧凑表示 217
6.4.1 极大频繁项集 217
6.4.2 闭频繁项集 219
6.5 产生频繁项集的其他方法 221
6.6 FP增长算法 223
6.6.1 FP树表示法 224
6.6.2 FP增长算法的频繁项集产生 225
6.7 关联模式的评估 228
6.7.1 兴趣度的客观度量 228
6.7.2 多个二元变量的度量 235
6.7.3 辛普森悖论 236
6.8 倾斜支持度分布的影响 237
文献注释 240
参考文献 244
习题 250
第7章 关联分析:高级概念 259
......
第8章 聚类分析:基本概念和算法 305
......
第9章 聚类分析:其他问题与算法 355
......
第10章 异常检测 403
......
附录A 线性代数 423
附录B 维归约 433
附录C 概率统计 445
附录D 回归 451
附录E 优化 457
空间数据的重要例子是科学和工程数据集,其数据取自二维或三维网格上规则或不规则分布的点上的测量或模型输出。例如,地球科学数据集记录在各种分辨率(如每度)下经纬度球面网格点(网格单元)上测量的温度和气压(见图2-4d)。另一个例子,在瓦斯气流模拟中,可以针对模拟中的每个网格点记录流速和方向。
5.处理非记录数据大部分数据挖掘算法都是为记录数据或其变体(如事务数据和数据矩阵)设计的。通过从数据对象中提取特征,并使用这些特征创建对应于每个对象的记录,针对记录数据的技术也可以用于非记录数据。考虑前面介绍的化学结构数据。给定一个常见的子结构集合,每个化合物都可以用一个具有二元属性的记录表示,这些二元属性指出化合物是否包含特定的子结构。这样的表示实际上是事务数据集,其中事务是化合物,而项是子结构。在某些情况下,容易用记录形式表示数据,但是这类表示并不能捕获数据中的所有信息。考虑这样的时间空间数据,它由空间网格每一点上的时间序列组成。通常,这种数据存放在数据矩阵中,其中每行代表一个位置,而每列代表一个特定的时间点。然而,这种表示并不能明确地表示属性之间存在的时间联系以及对象之间存在的空间联系。但并不是说这种表示不合适,而是说分析时必须考虑这些联系。例如,在使用数据挖掘技术时,假定属性之间在统计上是相互独立的并不是一个好主意。
……
禁用于商业用途!如果您喜欢《数据挖掘导论》,请购买正版,谢谢合作。
爱学习,请到3322软件站查找资源自行下载!
1、下载并解压,得出pdf文件
2、如果打不开本文件,别着急,这时候请务必在3322软件站选择一款阅读器下载哦
3、安装后,再打开解压得出的pdf文件
4、以上都完成后,接下来双击进行阅读就可以啦,朋友们开启你们的阅读之旅吧。
方法二:
1、可以在手机里下载3322软件站中的阅读器和百度网盘
2、接下来直接将pdf传输到百度网盘
3、用阅读器打开即可阅读
作者介绍:
陈封能(Pang-Ning.Tan)现为密歇根州立大学计算机与工程系助理教授,主要教授数据挖掘、数据库系统等课程。此前,他曾是明尼苏达大学美国陆军高性能计算研究中心副研究员(2002-2003)。斯坦巴赫(Michael.Steinbach)明尼苏达大学计算机与工程系研究员,在读博士。
库玛尔(Vipin Kumar)明尼苏达大学计算机科学与工程系主任,曾任美国陆军高性能计算研究中心主任。他拥有马里兰大学博士学位,是数据挖掘和高性能计算方面的专家,IEEE会士。
范明,郑州大学信息工程学院教授,中国计算机学会数据库专业委员会委员、人工智能与模式识别专业委员会委员,长期从事计算机软件与理论教学和研究。先后发表论史40余篇。
范宏建澳大利亚墨尔本大学计算机科学博士。先后在WWW、PAKDD、RSFDGrC、IEEE.GrC和Australian.AI等国际学术会议和IEEE.Transactions.on.Knowledge.and.Data.Engineering发表论文10余篇。目前是澳大利亚AUSTRAC的高级分析师。
数据挖掘导论目录:
目录第1章 绪论 1
1.1 什么是数据挖掘 2
1.2 数据挖掘要解决的问题 2
1.3 数据挖掘的起源 3
1.4 数据挖掘任务 4
1.5 本书的内容与组织 7
文献注释 7
参考文献 8
习题 10
第2章 数据 13
2.1 数据类型 14
2.1.1 属性与度量 15
2.1.2 数据集的类型 18
2.2 数据质量 22
2.2.1 测量和数据收集问题 22
2.2.2 关于应用的问题 26
2.3 数据预处理 27
2.3.1 聚集 27
2.3.2 抽样 28
2.3.3 维归约 30
2.3.4 特征子集选择 31
2.3.5 特征创建 33
2.3.6 离散化和二元化 34
2.3.7 变量变换 38
2.4 相似性和相异性的度量 38
2.4.1 基础 39
2.4.2 简单属性之间的相似度和相异度 40
2.4.3 数据对象之间的相异度 41
2.4.4 数据对象之间的相似度 43
2.4.5 邻近性度量的例子 43
2.4.6 邻近度计算问题 48
2.4.7 选取正确的邻近性度量 50
文献注释 50
参考文献 52
习题 53
第3章 探索数据 59
3.1 鸢尾花数据集 59
3.2 汇总统计 60
3.2.1 频率和众数 60
3.2.2 百分位数 61
3.2.3 位置度量:均值和中位数 61
3.2.4 散布度量:极差和方差 62
3.2.5 多元汇总统计 63
3.2.6 汇总数据的其他方法 64
3.3 可视化 64
3.3.1 可视化的动机 64
3.3.2 一般概念 65
3.3.3 技术 67
3.3.4 可视化高维数据 75
3.3.5 注意事项 79
3.4 OLAP和多维数据分析 79
3.4.1 用多维数组表示鸢尾花数据 80
3.4.2 多维数据:一般情况 81
3.4.3 分析多维数据 82
3.4.4 关于多维数据分析的最后评述 84
文献注释 84
参考文献 85
习题 86
第4章 分类:基本概念、决策树与模型评估 89
4.1 预备知识 89
4.2 解决分类问题的一般方法 90
4.3 决策树归纳 92
4.3.1 决策树的工作原理 92
4.3.2 如何建立决策树 93
4.3.3 表示属性测试条件的方法 95
4.3.4 选择最佳划分的度量 96
4.3.5 决策树归纳算法 101
4.3.6 例子:Web机器人检测 102
4.3.7 决策树归纳的特点 103
4.4 模型的过分拟合 106
4.4.1 噪声导致的过分拟合 107
4.4.2 缺乏代表性样本导致的过分拟合 109
4.4.3 过分拟合与多重比较过程 109
4.4.4 泛化误差估计 110
4.4.5 处理决策树归纳中的过分拟合 113
4.5 评估分类器的性能 114
4.5.1 保持方法 114
4.5.2 随机二次抽样 115
4.5.3 交叉验证 115
4.5.4 自助法 115
4.6 比较分类器的方法 116
4.6.1 估计准确度的置信区间 116
4.6.2 比较两个模型的性能 117
4.6.3 比较两种分类法的性能 118
文献注释 118
参考文献 120
习题 122
第5章 分类:其他技术 127
5.1 基于规则的分类器 127
5.1.1 基于规则的分类器的工作原理 128
5.1.2 规则的排序方案 129
5.1.3 如何建立基于规则的分类器 130
5.1.4 规则提取的直接方法 130
5.1.5 规则提取的间接方法 135
5.1.6 基于规则的分类器的特征 136
5.2 最近邻分类器 137
5.2.1 算法 138
5.2.2 最近邻分类器的特征 138
5.3 贝叶斯分类器 139
5.3.1 贝叶斯定理 139
5.3.2 贝叶斯定理在分类中的应用 140
5.3.3 朴素贝叶斯分类器 141
5.3.4 贝叶斯误差率 145
5.3.5 贝叶斯信念网络 147
5.4 人工神经网络 150
5.4.1 感知器 151
5.4.2 多层人工神经网络 153
5.4.3 人工神经网络的特点 155
5.5 支持向量机 156
5.5.1 最大边缘超平面 156
5.5.2 线性支持向量机:可分情况 157
5.5.3 线性支持向量机:不可分情况 162
5.5.4 非线性支持向量机 164
5.5.5 支持向量机的特征 168
5.6 组合方法 168
5.6.1 组合方法的基本原理 168
5.6.2 构建组合分类器的方法 169
5.6.3 偏倚-方差分解 171
5.6.4 装袋 173
5.6.5 提升 175
5.6.6 随机森林 178
5.6.7 组合方法的实验比较 179
5.7 不平衡类问题 180
5.7.1 可选度量 180
5.7.2 接受者操作特征曲线 182
5.7.3 代价敏感学习 184
5.7.4 基于抽样的方法 186
5.8 多类问题 187
文献注释 189
参考文献 190
习题 193
第6章 关联分析:基本概念和算法 201
6.1 问题定义 202
6.2 频繁项集的产生 204
6.2.1 先验原理 205
6.2.2 Apriori算法的频繁项集产生 206
6.2.3 候选的产生与剪枝 208
6.2.4 支持度计数 210
6.2.5 计算复杂度 213
6.3 规则产生 215
6.3.1 基于置信度的剪枝 215
6.3.2 Apriori算法中规则的产生 215
6.3.3 例:美国国会投票记录 217
6.4 频繁项集的紧凑表示 217
6.4.1 极大频繁项集 217
6.4.2 闭频繁项集 219
6.5 产生频繁项集的其他方法 221
6.6 FP增长算法 223
6.6.1 FP树表示法 224
6.6.2 FP增长算法的频繁项集产生 225
6.7 关联模式的评估 228
6.7.1 兴趣度的客观度量 228
6.7.2 多个二元变量的度量 235
6.7.3 辛普森悖论 236
6.8 倾斜支持度分布的影响 237
文献注释 240
参考文献 244
习题 250
第7章 关联分析:高级概念 259
......
第8章 聚类分析:基本概念和算法 305
......
第9章 聚类分析:其他问题与算法 355
......
第10章 异常检测 403
......
附录A 线性代数 423
附录B 维归约 433
附录C 概率统计 445
附录D 回归 451
附录E 优化 457
精彩书摘:
......空间数据的重要例子是科学和工程数据集,其数据取自二维或三维网格上规则或不规则分布的点上的测量或模型输出。例如,地球科学数据集记录在各种分辨率(如每度)下经纬度球面网格点(网格单元)上测量的温度和气压(见图2-4d)。另一个例子,在瓦斯气流模拟中,可以针对模拟中的每个网格点记录流速和方向。
5.处理非记录数据大部分数据挖掘算法都是为记录数据或其变体(如事务数据和数据矩阵)设计的。通过从数据对象中提取特征,并使用这些特征创建对应于每个对象的记录,针对记录数据的技术也可以用于非记录数据。考虑前面介绍的化学结构数据。给定一个常见的子结构集合,每个化合物都可以用一个具有二元属性的记录表示,这些二元属性指出化合物是否包含特定的子结构。这样的表示实际上是事务数据集,其中事务是化合物,而项是子结构。在某些情况下,容易用记录形式表示数据,但是这类表示并不能捕获数据中的所有信息。考虑这样的时间空间数据,它由空间网格每一点上的时间序列组成。通常,这种数据存放在数据矩阵中,其中每行代表一个位置,而每列代表一个特定的时间点。然而,这种表示并不能明确地表示属性之间存在的时间联系以及对象之间存在的空间联系。但并不是说这种表示不合适,而是说分析时必须考虑这些联系。例如,在使用数据挖掘技术时,假定属性之间在统计上是相互独立的并不是一个好主意。
……
免责声明:
来源于网络,仅用于分享知识,学习和交流!请下载完在24小时内删除。禁用于商业用途!如果您喜欢《数据挖掘导论》,请购买正版,谢谢合作。
爱学习,请到3322软件站查找资源自行下载!
下载说明:
方法一:1、下载并解压,得出pdf文件
2、如果打不开本文件,别着急,这时候请务必在3322软件站选择一款阅读器下载哦
3、安装后,再打开解压得出的pdf文件
4、以上都完成后,接下来双击进行阅读就可以啦,朋友们开启你们的阅读之旅吧。
方法二:
1、可以在手机里下载3322软件站中的阅读器和百度网盘
2、接下来直接将pdf传输到百度网盘
3、用阅读器打开即可阅读
展开更多
数据挖掘导论-含答案pdf中文版下载地址
- 需先下载高速下载器:
- 专用下载:
- 其它下载: