EaBIM一直以来积极响应国家“十二五”推进建筑业信息化的号召,对建筑领域的信息技术开展深入技术交流和探讨!致力于打造“BIM-建筑师-生态技术”三位一体综合资源交流共享平台,希望为BIM与可持续设计理念及技术的普及做出微小的贡献!!!

EaBIM

 找回密码
 注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

搜索
查看: 1220|回复: 23
打印 上一主题 下一主题

[数据挖掘] 数据挖掘概念与技术

[复制链接]

1514

主题

7465

帖子

1万

积分

admin

Rank: 10Rank: 10Rank: 10Rank: 10Rank: 10Rank: 10Rank: 10Rank: 10Rank: 10Rank: 10

积分
12406

社区QQ达人

跳转到指定楼层
楼主
发表于 2014-1-9 15:34:45 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本书是一个导论,介绍什么是数据挖掘,什么是数据库中知识发现。书中的材料从数据库角度提供,特别强调发现隐藏在大型数据集中有趣数据模式的数据挖掘基本概念和技术。所讨论的实现方法主要面向可规模化的、有效的数据挖掘工具开发。本章,你将学习数据挖掘如何成为数据库技术自然进化的一部分,为什么数据挖掘是重要的,以及如何定义数据挖掘。你将学习数据挖掘系统的一般结构,并考察挖掘的数据种类,可以发现的数据类型,以及什么样的模式提供有用的知识。除学习数据挖掘系统的分类之外,你将看到建立未来的数据挖掘工具所面临的挑战性问题。
目录
第一章
引言........................................................................................................................................................................... 8
1.1 什么激发数据挖掘?为什么它是重要的?........................................................................................................... 8
1.2 什么是数据挖掘?.................................................................................................................................................... 10
1.3 数据挖掘——在何种数据上进行?...................................................................................................................... 12
1.3.1 关系数据库......................................................................................................................................................... 12
1.3.2 数据仓库............................................................................................................................................................. 14
1.3.3 事务数据库......................................................................................................................................................... 15
1.3.4 高级数据库系统和高级数据库应用............................................................................................................. 16
1.4 数据挖掘功能——可以挖掘什么类型的模式?................................................................................................ 18
1.4.1 概念/类描述:特征和区分............................................................................................................................. 18
1.4.2 关联分析............................................................................................................................................................. 19
1.4.3 分类和预测......................................................................................................................................................... 19
1.4.4 聚类分析............................................................................................................................................................. 20
1.4.5 局外者分析......................................................................................................................................................... 20
1.4.6 演变分析............................................................................................................................................................. 21
1.5 所有模式都是有趣的吗?....................................................................................................................................... 21
1.6 数据挖掘系统的分类................................................................................................................................................ 22
1.7 数据挖掘的主要问题................................................................................................................................................ 23
1.8 总结.............................................................................................................................................................................. 25
习题..................................................................................................................................................................................... 25
第二章
数据仓库和数据挖掘的OLAP技术............................................................................................................ 28
2.1 什么是数据仓库?...................................................................................................................................................... 28
2.2.1 操作数据库系统与数据仓库的区别............................................................................................................. 29
2.1.2 但是,为什么需要一个分离的数据仓库..................................................................................................... 30
2.2 多维数据模型............................................................................................................................................................. 31
2.2.1 由表和电子数据表到数据方.......................................................................................................................... 31
2.2.2 星形、雪花和事实星座:多维数据库模式................................................................................................ 33
2.2.3 定义星形、雪花和事实星座的例子............................................................................................................. 35
2.2.3 度量:它们的分类和计算............................................................................................................................... 36
2.2.5 引入概念分层.................................................................................................................................................... 37
2.2.6 多维数据模型上的OLAP操作...................................................................................................................... 38
2.2.7 查询多维数据库的星形网查询模型............................................................................................................. 40
2.3 数据仓库的系统结构................................................................................................................................................ 41
2.3.1 数据仓库的设计步骤和结构.......................................................................................................................... 41
2.3.2 三层数据仓库结构............................................................................................................................................ 42
2.3.3 OLAP服务器类型:ROLAPMOLAPHOLAP的比较.......................................................................... 44
2.4 数据仓库实现............................................................................................................................................................. 45
2.4.1 数据方的有效计算............................................................................................................................................ 45
2.4.2 索引OLAP数据................................................................................................................................................ 49
2.4.3 OLAP查询的有效处理..................................................................................................................................... 51
2.4.4 元数据存储......................................................................................................................................................... 51
2.5 数据方技术的进一步发展....................................................................................................................................... 52
2.5.1 数据方发现驱动的探查................................................................................................................................... 52
2.5.2 多粒度上的复杂聚集: 多特征方................................................................................................................... 54
2.5.3 其它进展............................................................................................................................................................. 56
2.6 由数据仓库到数据挖掘........................................................................................................................................... 56
2.6.1 数据仓库的使用................................................................................................................................................ 56
2.6.2 由联机分析处理到联机分析挖掘.................................................................................................................. 57
2.7 总结.............................................................................................................................................................................. 58
习题..................................................................................................................................................................................... 59
第三章
数据预处理........................................................................................................................................................... 62
3.1为什么要预处理数据?............................................................................................................................................ 62
3.2 数据清理..................................................................................................................................................................... 64
3.2.1 遗漏值................................................................................................................................................................. 64
3.2.2 噪音数据............................................................................................................................................................. 64
3.3
数据集成和变换....................................................................................................................................................... 66
3.3.1 数据集成............................................................................................................................................................. 66
3.3.2 数据变换............................................................................................................................................................. 67
3.4
数据归约.................................................................................................................................................................... 68
3.4.1
数据方聚集....................................................................................................................................................... 69
3.4.2 维归约................................................................................................................................................................. 70
3.4.3 数据压缩............................................................................................................................................................. 71
3.4.4
数值归约........................................................................................................................................................... 73
3.5
离散化和概念分层产生.......................................................................................................................................... 77
3.5.1 数值数据的离散化和概念分层产生............................................................................................................. 77
3.5.2
分类数据的概念分层产生............................................................................................................................. 80
3.6 总结.............................................................................................................................................................................. 81
习题..................................................................................................................................................................................... 82
第四章
数据挖掘原语、语言和系统结构............................................................................................................... 84
4.1
数据挖掘原语:什么定义数据挖掘任务?....................................................................................................... 84
4.1.1
任务相关的数据.............................................................................................................................................. 85
4.1.2
要挖掘的知识的类型..................................................................................................................................... 86
4.1.3
背景知识:概念分层..................................................................................................................................... 86
4.1.4
兴趣度度量....................................................................................................................................................... 88
4.1.5
发现模式的提供和可视化............................................................................................................................. 90
4.2
一种数据挖掘查询语言.......................................................................................................................................... 91
4.2.1
任务相关数据说明的语法............................................................................................................................. 92
4.2.2
说明挖掘知识类型的语法............................................................................................................................. 93
4.2.3
概念分层说明的语法..................................................................................................................................... 94
4.2.4 兴趣度度量说明的语法................................................................................................................................... 95
4.2.5
模式提供和可视化说明的语法.................................................................................................................... 95
4.2.6
汇集 ——
一个DMQL查询的例子....................................................................................................... 95
4.2.7
其它数据挖掘语言和数据挖掘原语的标准化.......................................................................................... 96
4.3
基于数据挖掘查询语言设计图形用户界面....................................................................................................... 97
4.4
数据挖掘系统的结构.............................................................................................................................................. 97
4.5
总结............................................................................................................................................................................ 98
第五章
概念描述:特征与比较................................................................................................................................. 101
5.1
什么是概念描述?................................................................................................................................................ 101
5.2
数据泛化和基于汇总的特征............................................................................................................................... 102
5.2.1
面向属性归纳................................................................................................................................................ 102
5.2.2
面向属性归纳的有效实现........................................................................................................................ 105
5.2.3
导出泛化的表示............................................................................................................................................ 106
5.3
解析特征: 属性相关性分析................................................................................................................................ 108
5.3.1
为什么进行属性相关性分析?.................................................................................................................... 109
5.3.2
属性相关分析方法....................................................................................................................................... 109
5.4
挖掘类比较:区分不同的类............................................................................................................................... 111
5.4.1
类比较方法和实现........................................................................................................................................ 112
5.4.2 类比较描述的表示.......................................................................................................................................... 113
5.4.3
类描述:
提供特征和比较.......................................................................................................................... 114
5.5
在大型数据库中挖掘描述统计度量.................................................................................................................. 116
5.5.1
度量中心趋势................................................................................................................................................ 116
5.5.2
度量数据的发散............................................................................................................................................ 117
5.5.3
基本统计类描述的图形显示...................................................................................................................... 118
5.6
讨论.......................................................................................................................................................................... 121
5.6.1
概念描述:与典型的机器学习方法比较................................................................................................ 121
5.6.2
概念描述的增量和并行挖掘...................................................................................................................... 122
5.7
总结.......................................................................................................................................................................... 122
第六章
挖掘大型数据库中的关联规则................................................................................................................... 125
6.1
关联规则挖掘......................................................................................................................................................... 125
6.1.1
购物篮分析:一个引发关联规则挖掘的例子........................................................................................ 125
6.1.2
基本概念......................................................................................................................................................... 126
6.1.3
关联规则挖掘:一个路线图...................................................................................................................... 126
6.2 由事务数据库挖掘单维布尔关联规则............................................................................................................... 127
6.2.1
Apriori算法:使用候选项集找频繁项集............................................................................................... 128
6.2.2
由频繁项集产生关联规则.......................................................................................................................... 131
6.2.3
提高Apriori的有效性................................................................................................................................. 131
6.2.4
不产生候选挖掘频繁项集.......................................................................................................................... 133
6.2.5
冰山查询......................................................................................................................................................... 135
6.3
由事务数据库挖掘多层关联规则...................................................................................................................... 136
6.3.1
多层关联规则................................................................................................................................................ 136
6.3.2
挖掘多层关联规则的方法.......................................................................................................................... 137
6.3.3
检查冗余的多层关联规则.......................................................................................................................... 139
6.4
由数据库和数据仓库挖掘多维关联规则......................................................................................................... 139
6.4.1
多维关联规则................................................................................................................................................ 139
6.4.2
使用量化属性的静态离散化挖掘多维关联规则................................................................................... 140
6.4.3
挖掘量化关联规则....................................................................................................................................... 141
6.4.4
挖掘基于距离的关联规则.......................................................................................................................... 142
6.5
由关联挖掘到相关分析...................................................................................................................................... 143
6.5.1
强关联规则不一定是有趣的:一个例子................................................................................................ 143
6.5.2
由关联分析到相关分析............................................................................................................................... 144
6.6
基于限制的关联挖掘............................................................................................................................................ 145
6.6.1
关联规则的元规则制导挖掘...................................................................................................................... 145
6.6.2
用附加的规则限制制导的挖掘.................................................................................................................. 146
6.7 总结............................................................................................................................................................................ 148
第七章
分类和预测......................................................................................................................................................... 154
7.1
什么是分类?什么是预测?............................................................................................................................... 154
7.2
关于分类和预测的问题....................................................................................................................................... 155
7.2.1
准备分类和预测数据................................................................................................................................... 156
7.2.2
比较分类方法。............................................................................................................................................ 156
7.3
用判定树归纳分类................................................................................................................................................ 156
7.3.1
判定树归纳.................................................................................................................................................... 157
7.3.2
树剪枝............................................................................................................................................................. 160
7.3.3 由判定树提取分类规则................................................................................................................................. 160
7.3.4 基本判定树归纳的加强................................................................................................................................. 160
7.3.5 判定树归纳的可规模性................................................................................................................................. 161
7.3.6 集成数据仓库技术和判定树归纳............................................................................................................... 162
7.4
贝叶斯分类............................................................................................................................................................. 163
7.4.1
贝叶斯定理.................................................................................................................................................... 163
7.4.2
朴素贝叶斯分类............................................................................................................................................ 163
7.4.3
贝叶斯信念网络............................................................................................................................................ 165
7.4.4
训练贝叶斯信念网络................................................................................................................................... 166
7.5
后向传播分类......................................................................................................................................................... 167
7.5.1 多路前馈神经网络......................................................................................................................................... 167
7.5.2
定义网络拓扑................................................................................................................................................ 168
7.5.3
后向传播......................................................................................................................................................... 168
7.5.4
后向传播和可解释性................................................................................................................................... 172
7.6
基于源于关联规则挖掘概念的分类.................................................................................................................. 173
7.7
其它分类方法......................................................................................................................................................... 174
7.7.1
k-最临近分类................................................................................................................................................. 174
7.7.2
基于案例的推理............................................................................................................................................ 175
7.7.3 遗传算法........................................................................................................................................................... 175
7.7.4
粗糙集方法.................................................................................................................................................... 175
7.7.5
模糊集方法.................................................................................................................................................... 176
7.8
预测.......................................................................................................................................................................... 177
7.8.1
线性和多元回归............................................................................................................................................ 177
7.8.2
非线性回归.................................................................................................................................................... 178
7.8.3
其它回归模型................................................................................................................................................ 179
7.9 分类的准确性.......................................................................................................................................................... 179
7.9.1
评估分类法的准确率................................................................................................................................... 179
7.9.2
提高分类法的准确率................................................................................................................................... 180
7.9.3
准确率确定分类法够吗?.......................................................................................................................... 181
7.10
总结........................................................................................................................................................................ 181
第八章
聚类分析........................................................................................................................................................... 186
81 什么是聚类分析?.............................................................................................................................................. 186
82 聚类分析中的数据类型...................................................................................................................................... 187
8.2.2 区间标度(Interval-Scaled)变量............................................................................................................. 188
8.2.3 二元变量(binary variable...................................................................................................................... 189
8.2.4 标称型、序数型和比例标度型变量........................................................................................................... 190
8.2.5 混合类型的变量.............................................................................................................................................. 191
8.3 主要聚类方法的分类............................................................................................................................................. 191
8.4 划分方法(partitioning methods.............................................................................................................. 192
8.4.1 典型的划分方法:k-Meansk-Medoids................................................................................................. 193
8.4.2 大规模数据库中的划分方法:从k-medoidsCLARANS................................................................... 195
8.5 层次方法................................................................................................................................................................... 195
8.5.1 凝聚的和分裂的层次聚类............................................................................................................................ 196
852 BIRCH:利用层次方法的平衡迭代约减和聚类(Balanced Iterative Reducing and Clustering UsingHierarchies....................................................................................................................................................................................... 196
853 CURE:利用代表点聚类(clustering using representative)............................................................. 197
8.5.4 Chameleon(变色龙): 一个利用动态模型的层次聚类算法.............................................................. 198
8.6 基于密度的方法...................................................................................................................................................... 199
8.6.1 DBSCAN:一个基于密度和高密度的连结区域的聚类算法.................................................................... 199
8.6.2 OPTICS:通过对象排序识别聚类结构(Ordering Points to Identify the Clustering Structure
200
863 DENCLUE:基于密度分布函数的聚类............................................................................................... 201
8.7 基于网格的方法...................................................................................................................................................... 202
8.7.1 STING:统计信息网格(STatisticalINformation Grid)............................................................................ 202
8.7.2 WaveCluster:采用小波变换聚类............................................................................................................... 203
8.7.3 CLIQUE:聚类高维空间............................................................................................................................... 203
8.8 基于模型的聚类方法............................................................................................................................................. 204
8.9 孤立点(outlier)分析............................................................................................................................................ 206
8.9.1 基于统计的孤立点探测................................................................................................................................. 207
8.9.2基于距离的孤立点探测.................................................................................................................................. 207
8.9.3 基于偏离的孤立点探测................................................................................................................................. 208
8.10 总结......................................................................................................................................................................... 209
第九章
复杂类型数据的挖掘...................................................................................................................................... 213
9.1 复杂数据对象的多维分析和描述性挖掘(descriptive mining........................................................... 213
911 结构数据概化........................................................................................................................................... 213
912 空间和多媒体数据概化中的聚集和近似计算................................................................................... 214
913 对象标识和类/子类层次的概化............................................................................................................ 214
914 类复合层次概化....................................................................................................................................... 215
915 对象立方体的构造与挖掘...................................................................................................................... 215
916对规划数据库的概化挖掘....................................................................................................................... 215
92 空间数据库挖掘................................................................................................................................................... 217
921 空间数据立方体构造和空间OLAP...................................................................................................... 217
922 空间关联分析........................................................................................................................................... 219
923 空间聚类方法........................................................................................................................................... 220
924 空间分类和空间趋势分析...................................................................................................................... 220
925 光栅数据库挖掘....................................................................................................................................... 220
93 多媒体数据挖掘................................................................................................................................................... 220
931 多媒体数据的相似搜索.......................................................................................................................... 220
932 多媒体数据的多维分析.......................................................................................................................... 221
933 多媒体数据的分类和预测分析............................................................................................................. 222
934 多媒体数据中的关联规则挖掘............................................................................................................. 222
94 时序和序列数据的挖掘...................................................................................................................................... 223
941 趋势分析.................................................................................................................................................... 223
942 时序分析中的相似搜索.......................................................................................................................... 224
943 序列模式挖掘........................................................................................................................................... 226
944 周期分析.................................................................................................................................................... 226
95文本数据库挖掘................................................................................................................................................... 227
951 文本数据分析和信息检索...................................................................................................................... 227
952 文本挖掘:基于关键字的关联和文档分类....................................................................................... 229
96 Web挖掘................................................................................................................................................................ 230
961 挖掘Web链接结构,识别权威Web页面.......................................................................................... 231
962 Web文档的自动分类............................................................................................................................... 232
963 多层次Web信息库的构造..................................................................................................................... 233
964 Web使用记录的挖掘............................................................................................................................... 233
97 总结........................................................................................................................................................................ 234
习题.............................................................................................................................................................................. 234
文献注解...................................................................................................................................................................... 236
第十章
数据挖掘的应用和发展趋势........................................................................................................................ 238
101 数据挖掘的应用................................................................................................................................................ 238
1011 针对生物医学和DNA数据分析的数据挖掘................................................................................... 238
1012 针对金融数据分析的数据挖掘........................................................................................................... 239
1013 零售业中的数据挖掘............................................................................................................................ 239
1014 电信业中的数据挖掘............................................................................................................................ 240
102 数据挖掘系统产品和研究原型...................................................................................................................... 241
1021 怎样选择一个数据挖掘系统............................................................................................................... 241
1022 商用数据挖掘系统的例子................................................................................................................... 242
103 数据挖掘的其他主题................................................................................................................................... 243
1031视频和音频数据挖掘............................................................................................................................. 243
10.3.2 科学和统计数据挖掘................................................................................................................................... 244
1033 数据挖掘的理论基础............................................................................................................................ 244
1034数据挖掘和智能查询应答.................................................................................................................... 245
104 数据挖掘的社会影响........................................................................................................................................ 246
1041数据挖掘是宣传出来的还是持久的稳定增长的商业?................................................................ 246
1042数据挖掘只是经理的事还是每个人的事?...................................................................................... 247
1043数据挖掘对隐私或数据安全构成威胁么?...................................................................................... 247
105 数据挖掘的发展趋势........................................................................................................................................ 249
106 总结...................................................................................................................................................................... 249
习题.............................................................................................................................................................................. 250
文献注解...................................................................................................................................................................... 251
附录A Microsoft’s OLE DB for Data Mining 简介................................................................................ 252
A.1 创建DMM对象................................................................................................................................................. 252
A.2向模型中装入训练数据并对模型进行训练.................................................................................................. 253
A.3模型的使用.......................................................................................................................................................... 253
附录B
DBMiner简介................................................................................................................................................ 255
B.1系统结构............................................................................................................................................................... 255
B.2 输入和输出......................................................................................................................................................... 255
B.3 系统支持的数据挖掘任务............................................................................................................................... 256
B.4 对任务和方法选择的支持............................................................................................................................... 256
B.5 KDD处理过程的支持................................................................................................................................. 256
B.6 主要应用.............................................................................................................................................................. 257
B.7 现状...................................................................................................................................................................... 257

分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友 微信微信
收藏收藏 转播转播 分享分享 分享淘帖 支持支持 反对反对

相关帖子

工作时间:工作日的9:00-12:00/13:30-18:00,节假日不在线,请勿留言

17

主题

877

帖子

1517

积分

BIM经理

Rank: 6Rank: 6Rank: 6Rank: 6Rank: 6Rank: 6

积分
1517
推荐
发表于 2014-3-14 11:43:31 | 只看该作者
(*^__^*) 嘻嘻……

13

主题

730

帖子

1691

积分

BIM经理

Rank: 6Rank: 6Rank: 6Rank: 6Rank: 6Rank: 6

积分
1691
推荐
发表于 2014-4-29 14:38:09 | 只看该作者
(*^__^*) 嘻嘻……

4

主题

852

帖子

1381

积分

BIM经理

Rank: 6Rank: 6Rank: 6Rank: 6Rank: 6Rank: 6

积分
1381
推荐
发表于 2014-3-14 11:45:50 | 只看该作者
顶...... 楼下跟上.....

6

主题

713

帖子

1201

积分

BIM经理

Rank: 6Rank: 6Rank: 6Rank: 6Rank: 6Rank: 6

积分
1201
9F
发表于 2014-3-12 15:07:49 | 只看该作者
顶...... 楼下跟上.....

66

主题

1001

帖子

2354

积分

BIM顾问

Rank: 8Rank: 8Rank: 8Rank: 8Rank: 8Rank: 8Rank: 8Rank: 8

积分
2354

元老勋章特殊贡献勋章

14F
发表于 2014-3-31 16:52:06 | 只看该作者
路过!!!
不发表意见……
官方主页:www.eabim.net

29

主题

977

帖子

1833

积分

BIM经理

Rank: 6Rank: 6Rank: 6Rank: 6Rank: 6Rank: 6

积分
1833
15F
发表于 2014-3-31 16:57:32 | 只看该作者
路过!!!
不发表意见……
*滑块验证:
您需要登录后才可以回帖 登录 | 注册

本版积分规则

QQ|EaBIM网 ( 苏ICP备2020058923号-1  苏公网安备32011502011255号

GMT+8, 2024-11-27 08:21

Powered by Discuz! X3.2 Licensed

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表