发布日期:2013-11-29 10:13 来源: 标签: 数据 仓库 详解
数据仓库的概念在计算机以及信息系统出现的早期就已经存在。最初,数据仓库的概念指的是决策支持系统(Decision Support Systems,DSS)。在Building the Data Warehouse 一书中,作者Bill Inmon 将数据仓库描述为“一种面向主题的集成、非易失且随时间变化的数据集合,用于支持管理人员做出决策”
         数据仓库的概念在计算机以及信息系统出现的早期就已经存在。最初,数据仓库的概念指的是决策支持系统(Decision Support Systems,DSS)。在Building the Data Warehouse 一书中,作者Bill Inmon 将数据仓库描述为“一种面向主题的集成、非易失且随时间变化的数据集合,用于支持管理人员做出决策”。根据Inmon 为数据仓库给出的定义,数据仓库面向主题的特征与OLTP 系统中面向操作的特征有所不同;数据仓库中的某个主题可能与客户相关,而OLTP 系统中的一个操作可能与特定的应用程序相关,例如销售处理以及由其衍生出来的所有内容。
        集成一词指的是,在整个企业范围内,各个数据点应该按照一致的方式进行定义,或者应该存在特定的集成方法,能够在数据仓库级别强制实现一致性。如何表示实体Microsoft 即是这样的一个示例。如果在不同的数据库中将Microsoft 分别表示为MSFT、MS、Microsoft 以及MSoft,那么在数据仓库中有效合并这些表示形式将会非常困难。最佳的解决方法是规定企业中的所有数据库都将Microsoft 表示为MSFT(只是举例),这样便可以对相应数据进行无缝合并。还有一种解决方法虽然不太令人满意,但可以实现同等的效果,那就是在将数据从操作型系统转移到数据仓库的过程中,强制将所有变体转换为同一种形式。
数据仓库具有非易失性,之所以这样说,原因在于它与操作型系统有所不同,后者通常具有事务性质,并且会定期更新。而数据仓库一般情况下是按照一定的预设时间间隔进行加载,时间间隔的度量单位可能是数周,甚至可能达到几个月。这并不表示时间间隔从不以天为单位进行度量;但是,即使更新确实是每天发生,与对事务型系统做出固定的更改相比,这仍然是一种频率较为稀疏的时间表。
       上述定义中的最后一个元素是随时间变化,这是一种表示系统中的数据可以存储的时间长度的比较复杂的方式。对于操作型系统,数据的存储时间相当短,可能是几天、几周或者几个月。而对于数据仓库,存储时间相当长,通常都是以年为单位。这最后一项可能不需要过多的证明即可被用户接受,因为用户很可能曾经面临这样的窘境,那就是数据不能回溯到两个月之前,在这种情况下,分析业务发展趋势是一件非常困难的事情。
OLAP 系统的体系结构按多种不同的方式进行构造,具体取决于数据仓库的构建方式。典型OLAP 系统的数据仓库通常是使用针对性能进行了优化并且使用维度模型的多维存储进行构建的。此外,数据仓库也可以使用操作型数据库中的关系表进行构建,其中使用专门针对存储进行了优化的架构设计。混合型OLAP 是一种可以提 供性能和优化存储的体系结构。对于关系数据库与多维数据库之间的差异,还会在本章后面的内容中进行更多的介绍。
        数据仓库是转换和存储在操作型数据库中创建的数据时所使用的流程,它可以提供一种上下文环境,以便于从源数据中提取与业务相关的信息。操作型数据库或事务型数据库是基于事务的,并且通常情况下都进行了规范化,以减少生成的冗余数据存储量,例如销售终端(point-of-sale,POS)数据库就是这样的数据库。这种数据库的更新速度很快,但是查询时信息检索的速度大为降低,于是快速更新的优势便被抵消掉了。为了加快信息检索的速度,特别是为了进行业务分析而检索信息时,可以调用多维数据库。多维数据库一般是高度非规范化的,因此可能会产生大量冗余的数据行。这样可以实现快速查询响应,因为涉及的联接相对要少得多。而快速响应恰恰是用户在执行BI 操作时希望实现的。
       图1-1 显示了从事务型数据库提取并合并到多维数据库中的信息,这些信息在合并之后存储在数据市场或数据仓库中。数据市场可以被认为是小型的数据仓库,最常见的情况是充当大型数据仓库的一个组成部分。数据市场是面向主题的数据存储,主要用于处理经过整理的干净数据。对应的示例包括销售数据市场、库存数据市场,或者说根植于部门级别的所有主题基本上都可以看作数据市场。另一方面,数据仓库主要是在企业级别发挥作用,通常用于处理整个组织范围内的数据。

数据仓库设计者可以通过实体关系图的形式查看数据仓库中所有对象的整合视图,如图1-2 所示。可能会根据最终用户可以在数据仓库中查看以及针对数据仓库进行查询的访问级别为其提供相应的访问级别。即使你的数据仓库可能包含你组织中所有部门的相关信息,财务部门可能也只是能够查看与财务相关的对象,以及其他任何他们具有访问权限的相关对象。


相关评论

专题信息
    SQL Server 2012附带了强大的Analysis Services新功能,可使商业智能得到显著增强。本书由Microsoft产品团队的主要成员编写,介绍了如何应用这些新功能来创建复杂的BI解决方案。为了实现这一目的,你将在本书中了解到如何使用SQL Server Analysis Services设计、构建和处理多维和表格商业智能语义模型(BISM)。