本书是一个导论,介绍什么是数据挖掘,什么是数据库中知识发现。书中的材料从数据库角度提供,特别强调发现隐藏在大型数据集中有趣数据模式的数据挖掘基本概念和技术。所讨论的实现方法主要面向可规模化的、有效的数据挖掘工具开发。本章,你将学习数据挖掘如何成为数据库技术自然进化的一部分,为什么数据挖掘是重要的,以及如何定义数据挖掘。你将学习数据挖掘系统的一般结构,并考察挖掘的数据种类,可以发现的数据类型,以及什么样的模式提供有用的知识。除学习数据挖掘系统的分类之外,你将看到建立未来的数据挖掘工具所面临的挑战性问题。
目录 第一章
引言........................................................................................................................................................................... 8 1.1 什么激发数据挖掘?为什么它是重要的?........................................................................................................... 8 1.2 什么是数据挖掘?.................................................................................................................................................... 10 1.3 数据挖掘——在何种数据上进行?...................................................................................................................... 12 1.3.1 关系数据库......................................................................................................................................................... 12 1.3.2 数据仓库............................................................................................................................................................. 14 1.3.3 事务数据库......................................................................................................................................................... 15 1.3.4 高级数据库系统和高级数据库应用............................................................................................................. 16 1.4 数据挖掘功能——可以挖掘什么类型的模式?................................................................................................ 18 1.4.1 概念/类描述:特征和区分............................................................................................................................. 18 1.4.2 关联分析............................................................................................................................................................. 19 1.4.3 分类和预测......................................................................................................................................................... 19 1.4.4 聚类分析............................................................................................................................................................. 20 1.4.5 局外者分析......................................................................................................................................................... 20 1.4.6 演变分析............................................................................................................................................................. 21 1.5 所有模式都是有趣的吗?....................................................................................................................................... 21 1.6 数据挖掘系统的分类................................................................................................................................................ 22 1.7 数据挖掘的主要问题................................................................................................................................................ 23 1.8 总结.............................................................................................................................................................................. 25 习题..................................................................................................................................................................................... 25 第二章
数据仓库和数据挖掘的OLAP技术............................................................................................................ 28 2.1 什么是数据仓库?...................................................................................................................................................... 28 2.2.1 操作数据库系统与数据仓库的区别............................................................................................................. 29 2.1.2 但是,为什么需要一个分离的数据仓库..................................................................................................... 30 2.2 多维数据模型............................................................................................................................................................. 31 2.2.1 由表和电子数据表到数据方.......................................................................................................................... 31 2.2.2 星形、雪花和事实星座:多维数据库模式................................................................................................ 33 2.2.3 定义星形、雪花和事实星座的例子............................................................................................................. 35 2.2.3 度量:它们的分类和计算............................................................................................................................... 36 2.2.5 引入概念分层.................................................................................................................................................... 37 2.2.6 多维数据模型上的OLAP操作...................................................................................................................... 38 2.2.7 查询多维数据库的星形网查询模型............................................................................................................. 40 2.3 数据仓库的系统结构................................................................................................................................................ 41 2.3.1 数据仓库的设计步骤和结构.......................................................................................................................... 41 2.3.2 三层数据仓库结构............................................................................................................................................ 42 2.3.3 OLAP服务器类型:ROLAP、MOLAP、HOLAP的比较.......................................................................... 44 2.4 数据仓库实现............................................................................................................................................................. 45 2.4.1 数据方的有效计算............................................................................................................................................ 45 2.4.2 索引OLAP数据................................................................................................................................................ 49 2.4.3 OLAP查询的有效处理..................................................................................................................................... 51 2.4.4 元数据存储......................................................................................................................................................... 51 2.5 数据方技术的进一步发展....................................................................................................................................... 52 2.5.1 数据方发现驱动的探查................................................................................................................................... 52 2.5.2 多粒度上的复杂聚集: 多特征方................................................................................................................... 54 2.5.3 其它进展............................................................................................................................................................. 56 2.6 由数据仓库到数据挖掘........................................................................................................................................... 56 2.6.1 数据仓库的使用................................................................................................................................................ 56 2.6.2 由联机分析处理到联机分析挖掘.................................................................................................................. 57 2.7 总结.............................................................................................................................................................................. 58 习题..................................................................................................................................................................................... 59 第三章
数据预处理........................................................................................................................................................... 62 3.1为什么要预处理数据?............................................................................................................................................ 62 3.2 数据清理..................................................................................................................................................................... 64 3.2.1 遗漏值................................................................................................................................................................. 64 3.2.2 噪音数据............................................................................................................................................................. 64 3.3
数据集成和变换....................................................................................................................................................... 66 3.3.1 数据集成............................................................................................................................................................. 66 3.3.2 数据变换............................................................................................................................................................. 67 3.4
数据归约.................................................................................................................................................................... 68 3.4.1
数据方聚集....................................................................................................................................................... 69 3.4.2 维归约................................................................................................................................................................. 70 3.4.3 数据压缩............................................................................................................................................................. 71 3.4.4
数值归约........................................................................................................................................................... 73 3.5
离散化和概念分层产生.......................................................................................................................................... 77 3.5.1 数值数据的离散化和概念分层产生............................................................................................................. 77 3.5.2
分类数据的概念分层产生............................................................................................................................. 80 3.6 总结.............................................................................................................................................................................. 81 习题..................................................................................................................................................................................... 82 第四章
数据挖掘原语、语言和系统结构............................................................................................................... 84 4.1
数据挖掘原语:什么定义数据挖掘任务?....................................................................................................... 84 4.1.1
任务相关的数据.............................................................................................................................................. 85 4.1.2
要挖掘的知识的类型..................................................................................................................................... 86 4.1.3
背景知识:概念分层..................................................................................................................................... 86 4.1.4
兴趣度度量....................................................................................................................................................... 88 4.1.5
发现模式的提供和可视化............................................................................................................................. 90 4.2
一种数据挖掘查询语言.......................................................................................................................................... 91 4.2.1
任务相关数据说明的语法............................................................................................................................. 92 4.2.2
说明挖掘知识类型的语法............................................................................................................................. 93 4.2.3
概念分层说明的语法..................................................................................................................................... 94 4.2.4 兴趣度度量说明的语法................................................................................................................................... 95 4.2.5
模式提供和可视化说明的语法.................................................................................................................... 95 4.2.6
汇集 ——
一个DMQL查询的例子....................................................................................................... 95 4.2.7
其它数据挖掘语言和数据挖掘原语的标准化.......................................................................................... 96 4.3
基于数据挖掘查询语言设计图形用户界面....................................................................................................... 97 4.4
数据挖掘系统的结构.............................................................................................................................................. 97 4.5
总结............................................................................................................................................................................ 98 第五章
概念描述:特征与比较................................................................................................................................. 101 5.1
什么是概念描述?................................................................................................................................................ 101 5.2
数据泛化和基于汇总的特征............................................................................................................................... 102 5.2.1
面向属性归纳................................................................................................................................................ 102 5.2.2
面向属性归纳的有效实现........................................................................................................................ 105 5.2.3
导出泛化的表示............................................................................................................................................ 106 5.3
解析特征: 属性相关性分析................................................................................................................................ 108 5.3.1
为什么进行属性相关性分析?.................................................................................................................... 109 5.3.2
属性相关分析方法....................................................................................................................................... 109 5.4
挖掘类比较:区分不同的类............................................................................................................................... 111 5.4.1
类比较方法和实现........................................................................................................................................ 112 5.4.2 类比较描述的表示.......................................................................................................................................... 113 5.4.3
类描述:
提供特征和比较.......................................................................................................................... 114 5.5
在大型数据库中挖掘描述统计度量.................................................................................................................. 116 5.5.1
度量中心趋势................................................................................................................................................ 116 5.5.2
度量数据的发散............................................................................................................................................ 117 5.5.3
基本统计类描述的图形显示...................................................................................................................... 118 5.6
讨论.......................................................................................................................................................................... 121 5.6.1
概念描述:与典型的机器学习方法比较................................................................................................ 121 5.6.2
概念描述的增量和并行挖掘...................................................................................................................... 122 5.7
总结.......................................................................................................................................................................... 122 第六章
挖掘大型数据库中的关联规则................................................................................................................... 125 6.1
关联规则挖掘......................................................................................................................................................... 125 6.1.1
购物篮分析:一个引发关联规则挖掘的例子........................................................................................ 125 6.1.2
基本概念......................................................................................................................................................... 126 6.1.3
关联规则挖掘:一个路线图...................................................................................................................... 126 6.2 由事务数据库挖掘单维布尔关联规则............................................................................................................... 127 6.2.1
Apriori算法:使用候选项集找频繁项集............................................................................................... 128 6.2.2
由频繁项集产生关联规则.......................................................................................................................... 131 6.2.3
提高Apriori的有效性................................................................................................................................. 131 6.2.4
不产生候选挖掘频繁项集.......................................................................................................................... 133 6.2.5
冰山查询......................................................................................................................................................... 135 6.3
由事务数据库挖掘多层关联规则...................................................................................................................... 136 6.3.1
多层关联规则................................................................................................................................................ 136 6.3.2
挖掘多层关联规则的方法.......................................................................................................................... 137 6.3.3
检查冗余的多层关联规则.......................................................................................................................... 139 6.4
由数据库和数据仓库挖掘多维关联规则......................................................................................................... 139 6.4.1
多维关联规则................................................................................................................................................ 139 6.4.2
使用量化属性的静态离散化挖掘多维关联规则................................................................................... 140 6.4.3
挖掘量化关联规则....................................................................................................................................... 141 6.4.4
挖掘基于距离的关联规则.......................................................................................................................... 142 6.5
由关联挖掘到相关分析...................................................................................................................................... 143 6.5.1
强关联规则不一定是有趣的:一个例子................................................................................................ 143 6.5.2
由关联分析到相关分析............................................................................................................................... 144 6.6
基于限制的关联挖掘............................................................................................................................................ 145 6.6.1
关联规则的元规则制导挖掘...................................................................................................................... 145 6.6.2
用附加的规则限制制导的挖掘.................................................................................................................. 146 6.7 总结............................................................................................................................................................................ 148 第七章
分类和预测......................................................................................................................................................... 154 7.1
什么是分类?什么是预测?............................................................................................................................... 154 7.2
关于分类和预测的问题....................................................................................................................................... 155 7.2.1
准备分类和预测数据................................................................................................................................... 156 7.2.2
比较分类方法。............................................................................................................................................ 156 7.3
用判定树归纳分类................................................................................................................................................ 156 7.3.1
判定树归纳.................................................................................................................................................... 157 7.3.2
树剪枝............................................................................................................................................................. 160 7.3.3 由判定树提取分类规则................................................................................................................................. 160 7.3.4 基本判定树归纳的加强................................................................................................................................. 160 7.3.5 判定树归纳的可规模性................................................................................................................................. 161 7.3.6 集成数据仓库技术和判定树归纳............................................................................................................... 162 7.4
贝叶斯分类............................................................................................................................................................. 163 7.4.1
贝叶斯定理.................................................................................................................................................... 163 7.4.2
朴素贝叶斯分类............................................................................................................................................ 163 7.4.3
贝叶斯信念网络............................................................................................................................................ 165 7.4.4
训练贝叶斯信念网络................................................................................................................................... 166 7.5
后向传播分类......................................................................................................................................................... 167 7.5.1 多路前馈神经网络......................................................................................................................................... 167 7.5.2
定义网络拓扑................................................................................................................................................ 168 7.5.3
后向传播......................................................................................................................................................... 168 7.5.4
后向传播和可解释性................................................................................................................................... 172 7.6
基于源于关联规则挖掘概念的分类.................................................................................................................. 173 7.7
其它分类方法......................................................................................................................................................... 174 7.7.1
k-最临近分类................................................................................................................................................. 174 7.7.2
基于案例的推理............................................................................................................................................ 175 7.7.3 遗传算法........................................................................................................................................................... 175 7.7.4
粗糙集方法.................................................................................................................................................... 175 7.7.5
模糊集方法.................................................................................................................................................... 176 7.8
预测.......................................................................................................................................................................... 177 7.8.1
线性和多元回归............................................................................................................................................ 177 7.8.2
非线性回归.................................................................................................................................................... 178 7.8.3
其它回归模型................................................................................................................................................ 179 7.9 分类的准确性.......................................................................................................................................................... 179 7.9.1
评估分类法的准确率................................................................................................................................... 179 7.9.2
提高分类法的准确率................................................................................................................................... 180 7.9.3
准确率确定分类法够吗?.......................................................................................................................... 181 7.10
总结........................................................................................................................................................................ 181 第八章
聚类分析........................................................................................................................................................... 186 8.1 什么是聚类分析?.............................................................................................................................................. 186 8.2 聚类分析中的数据类型...................................................................................................................................... 187 8.2.2 区间标度(Interval-Scaled)变量............................................................................................................. 188 8.2.3 二元变量(binary variable)...................................................................................................................... 189 8.2.4 标称型、序数型和比例标度型变量........................................................................................................... 190 8.2.5 混合类型的变量.............................................................................................................................................. 191 8.3 主要聚类方法的分类............................................................................................................................................. 191 8.4 划分方法(partitioning methods).............................................................................................................. 192 8.4.1 典型的划分方法:k-Means和k-Medoids................................................................................................. 193 8.4.2 大规模数据库中的划分方法:从k-medoids到CLARANS................................................................... 195 8.5 层次方法................................................................................................................................................................... 195 8.5.1 凝聚的和分裂的层次聚类............................................................................................................................ 196 8.5.2 BIRCH:利用层次方法的平衡迭代约减和聚类(Balanced Iterative Reducing and Clustering UsingHierarchies)....................................................................................................................................................................................... 196 8.5.3 CURE:利用代表点聚类(clustering using representative)............................................................. 197 8.5.4 Chameleon(变色龙): 一个利用动态模型的层次聚类算法.............................................................. 198 8.6 基于密度的方法...................................................................................................................................................... 199 8.6.1 DBSCAN:一个基于密度和高密度的连结区域的聚类算法.................................................................... 199 8.6.2 OPTICS:通过对象排序识别聚类结构(Ordering Points to Identify the Clustering Structure)
200 8.6.3 DENCLUE:基于密度分布函数的聚类............................................................................................... 201 8.7 基于网格的方法...................................................................................................................................................... 202 8.7.1 STING:统计信息网格(STatisticalINformation Grid)............................................................................ 202 8.7.2 WaveCluster:采用小波变换聚类............................................................................................................... 203 8.7.3 CLIQUE:聚类高维空间............................................................................................................................... 203 8.8 基于模型的聚类方法............................................................................................................................................. 204 8.9 孤立点(outlier)分析............................................................................................................................................ 206 8.9.1 基于统计的孤立点探测................................................................................................................................. 207 8.9.2基于距离的孤立点探测.................................................................................................................................. 207 8.9.3 基于偏离的孤立点探测................................................................................................................................. 208 8.10 总结......................................................................................................................................................................... 209 第九章
复杂类型数据的挖掘...................................................................................................................................... 213 9.1 复杂数据对象的多维分析和描述性挖掘(descriptive mining)........................................................... 213 9.1.1 结构数据概化........................................................................................................................................... 213 9.1.2 空间和多媒体数据概化中的聚集和近似计算................................................................................... 214 9.1.3 对象标识和类/子类层次的概化............................................................................................................ 214 9.1.4 类复合层次概化....................................................................................................................................... 215 9.1.5 对象立方体的构造与挖掘...................................................................................................................... 215 9.1.6对规划数据库的概化挖掘....................................................................................................................... 215 9.2 空间数据库挖掘................................................................................................................................................... 217 9.2.1 空间数据立方体构造和空间OLAP...................................................................................................... 217 9.2.2 空间关联分析........................................................................................................................................... 219 9.2.3 空间聚类方法........................................................................................................................................... 220 9.2.4 空间分类和空间趋势分析...................................................................................................................... 220 9.2.5 光栅数据库挖掘....................................................................................................................................... 220 9.3 多媒体数据挖掘................................................................................................................................................... 220 9.3.1 多媒体数据的相似搜索.......................................................................................................................... 220 9.3.2 多媒体数据的多维分析.......................................................................................................................... 221 9.3.3 多媒体数据的分类和预测分析............................................................................................................. 222 9.3.4 多媒体数据中的关联规则挖掘............................................................................................................. 222 9.4 时序和序列数据的挖掘...................................................................................................................................... 223 9.4.1 趋势分析.................................................................................................................................................... 223 9.4.2 时序分析中的相似搜索.......................................................................................................................... 224 9.4.3 序列模式挖掘........................................................................................................................................... 226 9.4.4 周期分析.................................................................................................................................................... 226 9.5文本数据库挖掘................................................................................................................................................... 227 9.5.1 文本数据分析和信息检索...................................................................................................................... 227 9.5.2 文本挖掘:基于关键字的关联和文档分类....................................................................................... 229 9.6 Web挖掘................................................................................................................................................................ 230 9.6.1 挖掘Web链接结构,识别权威Web页面.......................................................................................... 231 9.6.2 Web文档的自动分类............................................................................................................................... 232 9.6.3 多层次Web信息库的构造..................................................................................................................... 233 9.6.4 Web使用记录的挖掘............................................................................................................................... 233 9.7 总结........................................................................................................................................................................ 234 习题.............................................................................................................................................................................. 234 文献注解...................................................................................................................................................................... 236 第十章
数据挖掘的应用和发展趋势........................................................................................................................ 238 10.1 数据挖掘的应用................................................................................................................................................ 238 10.1.1 针对生物医学和DNA数据分析的数据挖掘................................................................................... 238 10.1.2 针对金融数据分析的数据挖掘........................................................................................................... 239 10.1.3 零售业中的数据挖掘............................................................................................................................ 239 10.1.4 电信业中的数据挖掘............................................................................................................................ 240 10.2 数据挖掘系统产品和研究原型...................................................................................................................... 241 10.2.1 怎样选择一个数据挖掘系统............................................................................................................... 241 10.2.2 商用数据挖掘系统的例子................................................................................................................... 242 10.3 数据挖掘的其他主题................................................................................................................................... 243 10.3.1视频和音频数据挖掘............................................................................................................................. 243 10.3.2 科学和统计数据挖掘................................................................................................................................... 244 10.3.3 数据挖掘的理论基础............................................................................................................................ 244 10.3.4数据挖掘和智能查询应答.................................................................................................................... 245 10.4 数据挖掘的社会影响........................................................................................................................................ 246 10.4.1数据挖掘是宣传出来的还是持久的稳定增长的商业?................................................................ 246 10.4.2数据挖掘只是经理的事还是每个人的事?...................................................................................... 247 10.4.3数据挖掘对隐私或数据安全构成威胁么?...................................................................................... 247 10.5 数据挖掘的发展趋势........................................................................................................................................ 249 10.6 总结...................................................................................................................................................................... 249 习题.............................................................................................................................................................................. 250 文献注解...................................................................................................................................................................... 251 附录A Microsoft’s OLE DB for Data Mining 简介................................................................................ 252 A.1 创建DMM对象................................................................................................................................................. 252 A.2向模型中装入训练数据并对模型进行训练.................................................................................................. 253 A.3模型的使用.......................................................................................................................................................... 253 附录B
DBMiner简介................................................................................................................................................ 255 B.1系统结构............................................................................................................................................................... 255 B.2 输入和输出......................................................................................................................................................... 255 B.3 系统支持的数据挖掘任务............................................................................................................................... 256 B.4 对任务和方法选择的支持............................................................................................................................... 256 B.5 对KDD处理过程的支持................................................................................................................................. 256 B.6 主要应用.............................................................................................................................................................. 257 B.7 现状...................................................................................................................................................................... 257
|