数据仓库理论-数据仓库管理体系

/ 数据仓库理论数据仓库 / 没有评论 / 126浏览

数据仓库管理技术

概述

一个稳定健壮的数据仓库,管理系统或者说管理技术是非常重要的组成部分。对于数据仓库而言数据仓库管理主要包括数据管理,元数据管理,休眠和脏数据管理。 其中对于数据管理和元数据管理是重中之中

数据管理

数据是数据仓库的核心,一个良好的数据仓库,应该具有良好的稳定性,这种稳定性体现在随着数据体积的不断庞大,能够保证稳定的存储性能和查询性能以及数据的一致性和准确性。

休眠数据的管理

随着时间的不断推移,存入数据仓库的数据越来越多,很多历史数据可能将来不会再用到,渐渐的,数据仓库会产生庞大的休眠数据,也就是不确定将来会不会用到,而且一般不会用到的数据。

在数据量不多的情况下,休眠数据并不会对系统造成太大的影响,但是随着时间增长,休眠数据会占据整个数据仓库大部分,这会严重的影响数据仓库的性能-存储空间和计算能力。

所以确认谁是休眠数据,怎么产生的,怎么处理休眠数据,想达到什么预期是休眠数据主要管理的方向。

什么是休眠数据上面已经阐述过了,那下面来说下,休眠数据是怎么产生。

怎样确立休眠数据也是一个课题。

其实所有产生的原因都可以归纳总结为:未来时间内,休眠数据不会被访问查询。 所以根本的确定准则也需要按照者一依据,所以管理系统应该以监控用户查询为依据,拦截返回的查询结果数据,这样就可以把没有访问过的数据确定下来。也就是一段时间内,没有访问过的数据就是休眠数据了

对于休眠数据,主要有集中处理方式,删除数据,归档数据,放任不管

删除数据最直接,也最简单,但是感觉不太稳妥 归档数据即可以解决休眠数据带来的性能影响,又保留对历史数据的回溯,所以这个方法最好

元数据的管理

元数据也可以称为数据字典。那么采用什么方式去管理元数据也是一个比较复杂的课题。 有几个原则可以。

不过具体的元数据管理模式还是没有思考的太好。

脏数据管理

数据质量是数据仓库的一个重要标准,所以对于脏数据需要有有效的手段区杜绝清楚。

脏数据主要有几种方式产生,数据源脏数据,数据集合转换加载的时候产生,数据过期,需求变了四种方式。

首先来讲,应该尽可能避免脏数据的产生,所以对于数据源和数据转换过程应该有详细的思考。但是不可能百分之百做到没有脏数据进入, 所以需要定期的对脏数据进行检测,分析,然后采取不同的粗略去对待脏数据。有的脏数据可以直接删除掉,有些脏数据我们可以简单的修改以保证未来 查询和分析的正确性。