数据仓库的概念
数据仓库是一个面向主题的、集成的、非易失的、随时间变化的数据集合,用于支持管理决策过程。
数据仓库的特征
面向主题性
面向主题是数据仓库中数据组织的最基本原则,它与传统数据库面向事务处理应用进行数据组织的特点相对应。主题是构建数据仓库的核心与灵魂。
面向主题的数据组织方式,就是在较高层次上对分析对象的数据进行一个完整、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业的各项数据,以及数据之间的联系。
一般讲,一个数据仓库中可以有若干个主题。一个主题可以分解成若干个子主题,这样逐层分解从而构成一个主题层次。
集成性
数据仓库中数据的集成性,是指在构建数据仓库的过程中,多个外部数据源内格式不同、定义各异的数据,按既定的策略经过抽取、清洗、转换等一系列处理,最终构成一个有机的整体。
数据仓库对数据进行筛选、清洗和转换、综合等集成工作,以解决数据中存在的数据代码的歧义、数据格式的差异和数据名称的差异等问题。
非易失性
数据仓库的数据非易失性是指数据仓库的用户进行分析处理时不进行更新操作,一旦数据进入数据仓库以后,就会保持一个相当长的时间。
时变性
数据的时变性,是指数据仓库的内容随时间的变化而不断得到增补、更新。尽管数据仓库和业务数据库之间有很大的区别,数据仓库不会随业务的发生而频繁地更新数据,但为了保证决策分析的正确性,对数据仓库的内容定期加以增补和更新是十分必要的。
从这个角度,数据仓库实际是记录了系统的各个瞬态,并通过将各瞬态连接起来形成动画,从而在数据分析的时候再现系统运动的全过程,为决策分析提供有效的依据。
数据仓库与数据库的区别
| 数据库 | 数据仓库 |
面向应用
| 面向主题 |
数据是详细的
| 数据是综合的或提炼的 |
保存当前数据
| 保存过去和现在的数据 |
数据是可更新的
| 数据不更新 |
对数据操作是重复的
| 对数据的操作是启发式的 |
操作需求是事先可知的
| 操作需求是临时决定的 |
一个操作存取一个记录
| 一个操作存取一个集合 |
数据非冗余
| 数据时常冗余 |
操作比较频繁
| 操作相对不频繁 |
查询的是原始数据
| 查询的是经过加工的数据 |
操作需要的是当前数据
| 操作需要过去的数据 |
支持事务处理
| 支持决策分析 |
数据仓库的关键名词
(1) 外部数据源:从系统外部获取的同分析主题相关的数据。
(2) ETL:抽取、转换、清洗和加载
抽取:对数据源有目的的选择
转换:统一数据格式
清洗:更正错误、删除噪声
加载:数据存入数据仓库
(3) 数据仓库存储:用于存放数据仓库数据和元数据的存储空间。
(4) 元数据:描述数据的数据。
(5) 数据集市:面向某个主题而在逻辑上或物理上划分出来的数据仓库中的数据子集称为数据集市。
数据仓库的体系结构
数据仓库是将业务操作型系统提取出来,辅以企业外部数据,这些数据经过清洗和转换,存储在数据仓库中。数据仓库不只存储业务数据,还存储记录数据信息的元数据。数据仓库中还可以抽取部门型数据仓库,即数据集市。数据最终传送给数据挖掘系统或数据展现系统,以供数据分析或展现给用户。所以,数据仓库不是简单地对数据进行存储,而是对数据进行“再组织”。
数据仓库在电子商务中的应用
(1) 历史数据存储
(2) 网络数据集中管理
(3) 高效加载、存储、查询
(4) 支持数据挖掘和分析
美国美洲银行数据仓库应用案例
美国美洲银行在1998年与国民银行合并之后已经成为世界上最大的零售银行,其经营机构分布在全球45个国家,按总资产排名占全世界第四位,1998年盈利51.7亿美元。美洲银行超过14000台的ATM网络每年处理的交易量超过10亿笔,它的16万员工每天处理的支票达到4400多万。在美国22个州建立了4500个消费银行中心,为3200多万户家庭和超过200万家商业用户服务。
数据仓库解决方案
美洲银行在几年的时间内曾先后兼并过十几家小银行,由于拥有的30多个OLTP业务系统太多而且分散,管理十分不容易,要找到准确的业务数据也很难。举例来说,它要准确地了解各个分行的客户资料就要花很多的时间,最后的结果还不一定完全准确。为此,美洲银行投资Teradata建立了一个中央的数据仓库,把各个分行系统中的数据都集中到中央库来,一些以前要几个星期才能得到答案的业务问题现在只需要几分钟甚至更少,效果非常明显。例如,业务人员可以在分析银行的客户群中了解哪些类型或具有什么特征的客户最有可能购买哪一种产品或服务。美洲银行是1986年开始投资Teradata建立数据仓库的,采用循序渐进的方式实施数据仓库,刚开始时的数据库容量为20GB,后来逐步扩展成3.4TB的庞大系统。
应用效果
在美洲银行的数据仓库中目前存有280亿份抵押贷款的资料。这套系统在1994年1月17日发生的洛杉矶大地震中充分显示了其价值。银行的住宅租赁部在几分钟内就确定了其损失。当时加州分行的副总裁Charles Griffin先生事后这样描述道:“我们可以根据邮政编码进到每个区,看看在遭受地震破坏的区域有多少以及有哪些类型的房产贷款。”根据这些信息,银行可以迅速做出反应,拿出相应的对策来。
另外,在信用卡业务的拓展方面,数据仓库也起了很大的作用。一方面,通过对数据仓库中客户信息的分析,识别出那些给银行带来更多利润并且信用好的客户,对这些客户提供更好的服务;另一方面,对那些信用差的客户,则要想办法防止其呆账行为,降低风险。除此以外,还找出那些使用了银行其他服务,却没有使用信用卡服务或者使用其他银行信用卡服务的客户,并针对那些具有较好潜在利润可供挖掘的客户群体设计促销活动,将这些客户吸引到美洲银行来,这样既拓展了信用卡业务,又降低了促销成本。
思考问题:
1.数据仓库在美洲银行整合数据的过程中发挥了哪些作用?
2.试分析数据仓库具有哪些特点?
【资源列表】
1.CIO数据仓库频道:http://www.ciotimes.com/bi/sjck/
2.数据仓库之路:http://www.dwway.com/
3.廖开际:《数据仓库与数据挖掘》,北京大学出版社
4.刘翔:《数据仓库与数据挖掘技术》,上海交通大学出版社
大数据相关概念的界定与浅析
通过对大数据相关概念进行明确界定,企业可以正确地规划自己的数据体系,并且对传统的技术方法与新兴的技术方法进行合适地定位。
1.按数据特征分类
(1) 结构化数据
定义:目前其实专指的是关系模型数据,即以关系型数据库表形式管理的数据。绝大多数的企业业务数据都以此格式进行存放。
简析:虽然从专业角度讲,结构化就是关系模型的说法并不准确。但针对目前业内现状,还是将其定义为关系模型数据为最为妥当,因为它清晰而准确地代表了我们传统上最熟悉的企业业务数据,基本没有歧义。
(2) 半结构化数据
定义:半结构化与非结构化常常一同被提及,两者其实专指所有其他“非”结构化数据。但如果想更加清晰地描述,可以将“半结构化数据”定义为:那些非关系模型的、有基本固定结构模式的数据,例如应用日志文件、XML文档、JSON文档和电子邮件等。
简析:从专业的角度讲,上述结构化与半结构化数据都属结构化数据,但建议目前还是采用本定义为妥,否则会引起更大混淆。
(3) 非结构化数据
定义:除去结构化与半结构化的所有数据,即没有固定结构模式的数据,例如WORD、PDF、PPT、EXL文档,以及各种格式的图片和视频等。
简析:区分半结构化与非结构化数据的意义在于,目前在企业内对两者的处理方法(包括存储、访问与分析)是不同的。非结构化数据大多采用内容管理的方法,但对半结构化数据基本没有有效管理方法。
事实上,结构化、半结构化与非结构化数据的区分,实际上只是按数据格式进行分类,并且由来已久。严格来讲,结构化与半结构化数据都是有基本固定结构模式的数据(即专业意义上的结构化数据)。但目前业界的情况是,将其中的关系模型数据单独定义为结构化数据,这对企业数据管理现状是可取的,并具有一定的现实意义。
另外,半结构与非结构化数据与目前流行的大数据之间只是有领域重叠的关系。本质来讲,两者并无必然关系。业界有将大数据认同为半结构化与非结构化数据的说法,只是因为大数据技术最先是在半结构化数据领域发挥作用。上面的认识误区是将数据处理技术与数据格式概念混淆,这是不正确的。
2.按数据处理技术分类
(1) 大数据(技术)
定义:大数据是最近几年兴起的概念,业界普遍将其定义为具有4个V(数据量大Volume、变化速度快Velocity、多类型Variety与价值密度低Value)特征的数据。实际上,大数据的概念准确地讲应该是指大数据技术,指对海量数据不同于SQL体系的新的、低成本的处理技术,而不是指数据格式或者其他。
简析:业界对大数据的定义最为混乱,大致有以下几个误区:有将大数据等同于半结构/非结构化数据的,而实际上大数据技术只是最先在半结构化数据领域发挥作用,现在已经渗透到多结构领域;有将大数据等同于Hadoop的,而实际上Hadoop只是在掀起大数据热潮方面发挥了巨大作用;有说大数据就是除企业业务数据库之外的所有数据,但却有很多企业用大数据方法有效地分析与存储某些业务数据。
另外,被内容管理手段管理起来的数据又该如何界定呢?有的说大数据就是互联网特征的数据,那传统企业就没有大数据了吗?有的说大数据就是量很大的数据,这更是无法界定了。其实,仔细分析,还是将其定义为数据处理技术最为准确。除SQL体系与内容管理技术外,大数据技术目前具有很丰富的内容。除此之外,大数据技术一定是强调低成本的。
(2) 关系数据库技术
定义:与数据格式分类中的关系模型相比,这里是指SQL处理体系。
简析:关系数据库技术依然是企业数据管理的核心,大数据技术的定位需要进一步地考虑与研究。
(3) 内容管理技术
定义:主要是指企业对非结构化数据,也包括部分结构化数据按“内容”特征组织、管理与访问的处理方法,是企业目前除关系型数据库技术之外,最常用的另一重要的技术方法与工具。
简析:是企业目前处理非结构化数据最主要的手段,企业对半结构化数据目前基本没有有效管理与利用。
(4) 其他技术
定义:企业还可能采用如低成本的分布式文件系统、MySQL联邦、海量内存数据管理技术,以及介于Hadoop与SQL体系之间的新技术(适用于历史数据管理)等其他数据管理技术,这些技术部分可以归入大数据技术的范畴。
简析:互联网行业常用的MySQL联邦是采用关系模型的结构化数据,但却不是等同于分布式关系型数据库,因为它牺牲了完整关系型数据库全局的一致性、完整性保证,却获得了更优秀的扩展性。因此,它也属于大数据技术。
除此之外,分布式文件系统使企业对海量小文件管理有了新的方法,也属于大数据技术;低成本海量内存数据管理技术使交易系统的能力进一步实现低成本地提升,也属于大数据技术。可见,大数据技术是面向结构化、半结构化与非结构化数据的,而不只是针对半结构化数据。
因此,大数据更多的是指技术方法,而不是指数据格式,是指除SQL体系与内容管理技术之外,新出现的一些数据管理技术。而大数据所谓的“大”并没有相关的标准。在大数据技术中,Hadoop只是最重要的一个,而不是唯一的一个,其他还有NoSQL、分布式文件系统、MySQL关系型数据库联邦、海量内存数据管理技术等。
大数据技术可以应对的数据类型中,企业目前还没有有效管理和处理的半结构化数据只是其最早发挥作用的部分。而实际上,它还可以应对包括结构化、半结构化与非结构化在内的所有数据类型。
另外,需要澄清和明确的是,大数据技术一定要是低成本的,否则没有立足点。同时,关系型数据库技术仍然是企业数据管理的核心。内容管理是目前企业组织、存储与访问非结构化数据的主要手段,如果引入大数据技术来处理非结构化数据,除更低成本的考虑外,应该是指内容管理技术尚未涉及的数据分析领域,例如图片、视频分析,但这对于银行等行业实际需求应该还比较遥远。
企业IT人员对以上概念应该明确界定,可将其数据类型分为“结构化”、“半结构化”和“非结构化”三种。同时,企业可以将数据处理方法划分为“关系数据库技术”、“大数据技术”、“内容管理技术”及其他。在清晰地概念定义基础上,企业不但可以正确地规划自己的数据体系,并且可以对传统的技术方法与新兴的技术方法进行合适地定位。
资料来源:http://network.51cto.com/art/201301/377031.htm