欢迎来到Doc100.Net免费学习资源知识分享平台!
您的位置:首页 > 程序异常 >

数据挖掘系列之4:数据仓库设计

更新时间: 2014-01-05 02:29:46 责任编辑: Author_N1

 

数据挖掘系列之四:数据仓库设计

1. OLAP(联机分析处理)与OLTP(联机事务处理)主要区别

用户和系统的面向性:OLTP面向事务,日常操作;OLAP面向分析,用于决策支持。

数据内容:OLTP当前数据;OLAP历史数据

数据库设计:OLTP使用ER图、面向应用;OLAP使用星形模式或雪花,面向主题。

视图:OLTP是详细的,一般的关系;OLTP汇总的,多维的。

访问模式:OLTP读写操作都有,需要并行控制和恢复机制;OLAP多为读

2. 多维数据模型

数据仓库和OLAP基于多维数据模型。此模型用数据方表示数据。

方体:数据汇总

方体的:根据不同的汇总级别或维的不同子集,构造方体的格。

数据方:方体的格即为一个数据方。数据方由维和度量组成。

原语:立方体定义 (事实表):

define cube <cube_name> [<dimension_list>]:<measure_list>
维定义 ( 维表):
define dimension <dimension_name> as (<attribute_or_subdimension_list>)

3. 多维数据库模式

多维数据模型可以以星形模式、雪花模式、事实星座模式形式存在。

星形模式:(1)一个大的、包含大批数据、不含冗余的中心表(事实表);(2)一组小的附属表(维表),每维一个。

雪花模式:雪花模式是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加的表中。雪花模式比星形模式的维表更规范,这样减少了冗余,但是可能需要更多的join操作,性能降低。数据仓库设计中,星形模式更多。

事实星座模式(星系模式):多个事实表共享维表。

4. 数据仓库设计

须考虑的四种视图:
-自顶向下视图:选择数据仓库所需的有关信息
-数据源视图:揭示被操作数据库系统捕获、存储、和管理的信息
-数据仓库视图:包括事实表和维表
-商务查询视图:从最终用户的角度透视数据仓库中的数据

典型的数据仓库设计过程
-选取待建模的商务处理, 例如, 订单, 发票, 库存等.
-选取商务处理的粒度, 例如,单个事务、一天的快照等 
-选取用于每个事实表记录的, 如,时间、商品、顾客、供应商、仓库、事务类型和状态 等
-选取将安放在事实表中的度量.  典型的度量是可加的数值量, 如dollars_sold和units_sold 

参考文献:

[1]数据挖掘:概念与技术


上一篇:上一篇
下一篇:下一篇

 

随机推荐程序问答结果

 

 

如对文章有任何疑问请提交到问题反馈,或者您对内容不满意,请您反馈给我们DOC100.NET论坛发贴求解。
DOC100.NET资源网,机器学习分类整理更新日期::2014-01-05 02:29:46
如需转载,请注明文章出处和来源网址:http://www.doc100.net/bugs/t/10539/
本文WWW.DOC100.NET DOC100.NET版权所有。