从数据库到数据仓库
企业的数据处理大致分为两类:一类是操作型处理,也称为联机事务处理,它是针对具体业务在数据库联机的日常操作,通常对少数记录进行查询、修改该类即为传统数据库的应用。另一类是分析型处理,一般针对某些主题的历史数据进行分析,支持管理决策,此类即为数据仓库应用。
两类的数据处理行为具有不同的特征,传统的数据库的日常业务涉及频繁、简单的数据存取,对操处理的性能要求是极高的,需要数据库能够在很短时间内做出反应。而数据仓库的所涉及的数据极为分散,主要为信息分析检索,对请求的实时性要求较低,允许延迟响应,但对数据的准确度有较高的要求。
传统的数据库操作型处理主要由原子事务组成,数据更新频繁,需要并行控制和恢复机制。数据仓库则是不可更新的,数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询。
数据仓库是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它并不是所谓的“大型数据库”。数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点到当前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。数据仓库是随时间而变化的,传统的关系数据库系统比较适合处理格式化的数据,能够较好的满足商业商务处理的需求,而数据仓库的数据以只读格式保存,且不随时间改变。
数据仓库以前端查询和分析作为基础,由于有较大的数据冗余,所以需要的存储也较大,为了更好地为前端应用服务,数据仓库往往有如下几点特点
1.效率足够高
数据仓库的分析数据一般分为日、周、月、季、年等,可以看出,日为周期的数据要求的效率最高,要求24小时甚至12小时内,客户能看到昨天的数据分析。
2.数据准确
数据仓库所提供的各种信息,必需是准确的数据。由于数据仓库流程通常分为多个步骤,包括数据清洗,装载,查询,展现等等,复杂的架构会更多层次,由于数据源有脏数据或者代码不严谨,都可以导致数据失真,客户看到错误的信息就可能导致分析出错误的决策,造成损失,是要极力避免的。
3.扩展性好
大型数据仓库系统架构设计之所以复杂,是因为考虑到了未来3-5年的扩展性,这样的话,未来不用太快花钱去重建数据仓库系统,就能很稳定运行。扩展性主要体现在数据建模的合理性,数据仓库方案中多出一些中间层,使海量数据流有足够的缓冲,不至于数据量大很多,就运行不起来了。
从上面的介绍中可以看出,数据仓库技术可以将企业多年积累的数据唤醒,不仅为企业管理好这些海量数据,而且挖掘数据潜在的价值,从而成为通信企业运营维护系统的亮点之一。

