< img height="1" width="1" style="display:none" src="https://a.gdt.qq.com/pixel?user_action_set_id=1200686054&action_type=PAGE_VIEW&noscript=1"/>

管理信息系统中数据仓库的概念

文:鼎捷ERP

作者:鼎捷数智 | 发布时间:2012-11-30 14:50:34

    从本质上讲,设计数据仓库的初衷是为操作型系统过渡到决策支持管理信息系统提供一种工具或整个企业范围内的数据集成环境,并尝试解决数据流相关的各种问题。这些问题包括如何从传统的操作型处理系统中提取与决策主题相关的数据,如何经过转换把分散的、不一致的业务数据转换成集成的、低噪声的数据等。
    Bill lnmon认为数据仓库就是面向主题的(Subject-Oriented)、集成的(Integrated)、非易失的(Non-Volatile)和时变的(Time-Variant)数据集合,用以支持管理决策。数据仓库不是可以买到的产品,而是一种面向分析的数据存储方案。对于数据仓库的概念可以从两个层次理解:首先,数据仓库用于支持决策,面向分析型数据处理,不同于提高业务效率的操作型数据库;其次,数据仓库对分布在企业中的多个异构数据源集成,按照决策主题选择数据并以新的数据模型存储。此外,存储在数据仓库中的数据一般不能修改。
    数据仓库主要有以下特征。
    1.面向主题
    在操作型数据库中,各个业务系统可能是相互分离的。而数据仓库是面向主题的。逻辑意义上,每一个商业主题对应于企业决策包含的分析对象。从图3.1中可以看出,一个保险公司的数据仓库的主题可能有顾客、政策、保险金和索赔等。

                                 
    操作型处理对数据的划分并不适用于决策分析。而基于主题组织的数据则不同,它们被划分为各自独立的领域,每个领域有各自的逻辑内涵但互不交叉,在抽象层次上对数据进行完整、一致和准确的描述。一些主题相关的数据通常分布在多个操作型系统中。
    2.集成性
    不同操作型系统之间的数据一般是相互独立、异构的。而数据仓库中的数据是对分散的数据进行抽取、清理、转换和汇总后得到的,这样保证了数据仓库内的数据关于整个企业的一致性。图3.2说明一个保险公司综合数据的简单处理过程,其中数据仓库中与“保险”主题有关的数据来自于多个不同的操作型管理软件系统。这些系统内部数据的命名可能不同,数据格式也可能不同。把不同来源的数据存储到数据仓库之前,需要去除这些不一致。

                                          
    3.数据的非易失性
    操作型数据库主要服务于日常的业务操作,使得数据库需要不断地对数据实时更新,以便迅速获得当前较新数据,不至于影响正常的业务运作。在数据仓库中只要保存过去的业务数据,不需要每一笔业务都实时更新数据仓库,而是根据商业需要每隔一段时间把一批较新的数据导入数据仓库。事实上,在一个典型的数据仓库中,通常不同类型数据的更新发生的频率是不同的。例如产品属性的变化通常每个星期更新一次,地理位置上的变化通常一个月更新一次,销售数据每天更新一次。
    数据非易失性主要是针对应用而言。数据仓库的用户对数据的操作大多是数据查询或比较复杂的挖掘,一旦数据进入数据仓库以后,一般情况下被较长时间保留。数据仓库中一般有大量的查询操作,但修改和删除操作很少。因此,数据经加工和集成进入数据仓库后是极少更新的,通常只需要定期的加载和更新。
    4.数据的时变性
    数据仓库包含各种粒度的历史数据。数据仓库中的数据可能与某个特定日期、星期、月份、季度或者年份有关。数据仓库的目的是通过分析企业过去一段时间业务的经营状况,挖掘其中隐藏的模式。虽然数据仓库的用户不能修改数据,但并不是说数据仓库的数据是永远不变的。分析的结果只能反映过去的情况,当业务变化后,挖掘出的模式会失去时效性。因此数据仓库的数据需要更新,以适应决策的需要。从这个角度讲,数据仓库建设是一个项目,更是一个过程。数据仓库的数据随时间的变化表现在以下几个方面。
    (1)数据仓库的数据时限一般要远远长于操作型数据的数据时限。
    (2)操作型系统存储的是当前数据,而数据仓库中的数据是历史数据。
    (3)数据仓库中的数据是按照时间顺序追加的,它们都带有时间属性。
    数据仓库主要包括数据的提取、转换与装载(ETL)、元数据、数据集市和操作数据存储等部分,常用的数据仓库结构如图3.3所示。

                  
3.3  数据集市
    人们在早期开发企业级数据仓库时,一般是先建立一个全局的数据仓库,然后在此基础上建立各种应用,即“自顶向下”的方法。但在开发的过程中会出现以下问题。
    (1)如果按“自顶向下”的方法建立企业级数据仓库,建设规模往往较大,建设周期长,投资大。
    (2)在数据仓库建好后,随着使用数据仓库的部门增多,对数据仓库资源的竞争将成为企业面临的—个难题。
    (3)各个部门希望能定制数据仓库中的数据,但数据仓库是面向企业的。为解决上述问题,人们提出了数据集市的概念,如图3.4所示。数据集市支持某一业务单元或部门特定的商业需求,其中的数据可以来自数据仓库。数据集市可以在数据仓库的基础上进行设计(见图3.4(a)),也可像数据仓库一样直接设计(见图3.4(b))。数据集市中的数据具有数据仓库中数据的特点,只不过数据集市专为某一部门或某个特定商业需求定制,而不是根据数据容量命名。

                  
    数据集市面向部门、业务单元或特定应用,因而规模较小,便于快速实现,且成本较低,短期内即可获明显效果。数据集市的应用不仅满足了部门的数据处理需求,而且作为数据仓库的子集有助于构建完整的企业级数据仓库。
 

上一页:企业信息化,从数据库到数据仓库

下一页:管理信息系统中的数据仓库及存储

相关新闻

  • 管理信息系统中的数据仓库及存储

    数据仓库并不只是数据的简单累积,而是经过一系列的抽取、转换和装载的过程,简称ETL。需要定期更新数据仓库的数据,因此对于不同的数据源,需要确定数据抽取的频率,例如每天、每星期、每月或每季度等。

  • 医保管理信息系统数据仓库的设计

    还可以使用ETL工具,把存储在外部数据源的数据或操作型数据批量加载到数据仓库中。数据仓库的设计还采用了反馈模式,即提出新需求后移交给数据集市,数据集市的需求也不断汇总到数据仓库。

  • 企业信息化,从数据库到数据仓库

    数据仓库作为高效集成、管理数据的技术,为各级决策者洞察企业的经营管理状况,及时发现问题,为提高决策水平提供了基础。日常业务涉及频繁、简单的数据存取,因此对操作型处理的性能要求较高,需要数据库在很短时间内做出响应。企业的操作型处理通常较为分散,传统数据库面向应用的特性使数据集成困难。

关注我们

留言板

咨询热线:400-626-5858