

数据管理技术的发展

数据库
数据库(Database,DB)是长期存储在计算机内,有组织的、可共享的大量数据的集合。
数据库系统
数据库管理系统(Database Management System,DBMS)是一种操纵和管理数据库的软件,用于建立、使用和维护数据库。
数据库应用系统是系统开发人员根据用户需求在DBMS支持下运行的一类实际应用的软件系统。
数据库系统的组成


数据库系统的特点


什么是大数据?

1、大数据定义
大数据(big data),指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产 。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)Veracity(真实性)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是成为赢得竞争的关键。
相关视频
The big talk:大数据开启大时代
2、大数据的应用
洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生。
google流感趋势(Google Flu Trends)利用搜索关键词预测禽流感的散布。
统计学家内特.西尔弗(Nate Silver)利用大数据预测2012美国选举结果。
麻省理工学院利用手机定位数据和交通数据建立城市规划。
梅西百货的实时定价机制。根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进行实时调价。
医疗行业早就遇到了海量数据和非结构化数据的挑战,而近年来很多国家都在积极推进医疗信息化发展,这使得很多医疗机构有资金来做大数据分析。
相关视频
春节微信红包谁抢最多谁发最多
大数据公司都在做什么?
3、大数据的趋势
趋势一:数据的资源化
何为资源化,是指大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。因而,企业必须要提前制定大数据营销战略计划,抢占市场先机。
趋势二:与云计算的深度结合
大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。除此之外,物联网、移动互联网等新兴计算形态,也将一齐助力大数据革命,让大数据营销发挥出更大的影响力。
趋势三:科学理论的突破
随着大数据的快速发展,就像计算机和互联网一样,大数据很有可能是新一轮的技术革命。随之兴起的数据挖掘、机器学习和人工智能等相关技术,可能会改变数据世界里的很多算法和基础理论,实现科学技术上的突破。
趋势四:数据科学和数据联盟的成立
未来,数据科学将成为一门专门的学科,被越来越多的人所认知。各大高校将设立专门的数据科学类专业,也会催生一批与之相关的新的就业岗位。与此同时,基于数据这个基础平台,也将建立起跨领域的数据共享平台,之后,数据共享将扩展到企业层面,并且成为未来产业的核心一环。
趋势五:数据泄露泛滥
未来几年数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。可以说,在未来,每个财富500强企业都会面临数据攻击,无论他们是否已经做好安全防范。而所有企业,无论规模大小,都需要重新审视今天的安全定义。在财富500强企业中,超过50%将会设置首席信息安全官这一职位。企业需要从新的角度来确保自身以及客户数据,所有数据在创建之初便需要获得安全保障,而并非在数据保存的最后一个环节,仅仅加强后者的安全措施已被证明于事无补。
趋势六:数据管理成为核心竞争力
数据管理成为核心竞争力,直接影响财务表现。当“数据资产是企业核心资产”的概念深入人心之后,企业对于数据管理便有了更清晰的界定,将数据管理作为企业核心竞争力,持续发展,战略性规划与运用数据资产,成为企业数据管理的核心。数据资产管理效率与主营业务收入增长率、销售收入增长率显著正相关;此外,对于具有互联网思维的企业而言,数据资产竞争力所占比重为36.8%,数据资产的管理效果将直接影响企业的财务表现。
趋势七:数据质量是BI(商业智能)成功的关键
采用自助式商业智能工具进行大数据处理的企业将会脱颖而出。其中要面临的一个挑战是,很多数据源会带来大量低质量数据。想要成功,企业需要理解原始数据与数据分析之间的差距,从而消除低质量数据并通过BI获得更佳决策。
趋势八:数据生态系统复合化程度加强
大数据的世界不只是一个单一的、巨大的计算机网络,而是一个由大量活动构件与多元参与者元素所构成的生态系统,终端设备提供商、基础设施提供商、网络服务提供商、网络接入服务提供商、数据服务使能者、数据服务提供商、触点服务、数据服务零售商等等一系列的参与者共同构建的生态系统。而今,这样一套数据生态系统的基本雏形已然形成,接下来的发展将趋向于系统内部角色的细分,也就是市场的细分;系统机制的调整,也就是商业模式的创新;系统结构的调整,也就是竞争环境的调整等等,从而使得数据生态系统复合化程度逐渐增强。
4、数据挖掘
何为数据挖掘

数据挖掘(Data mining)就是指从数据中获取知识 。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
成功案例
数据挖掘帮助Credilogros Cía Financiera S.A.改善客户信用评分
Credilogros Cía Financiera S.A. 是阿根廷第五大信贷公司,资产估计价值为9570万美元,对于Credilogros而言,重要的是识别与潜在预先付款客户相关的潜在风险,以便将承担的风险最小化。
该公司的第一个目标是创建一个与公司核心系统和两家信用报告公司系统交互的决策引擎来处理信贷申请。同时,Credilogros还在寻找针对它所服务的低收入客户群体的自定义风险评分工具。除这些之外,其他需求还包括解决方案能在其35个分支办公地点和200多个相关的销售点中的任何一个实时操作,包括零售家电连锁店和手机销售公司。
最终Credilogros 选择了SPSS Inc.的数据挖掘软件PASWModeler,因为它能够灵活并轻松地整合到 Credilogros 的核心信息系统中。通过实现PASW Modeler,Credilogros将用于处理信用数据和提供最终信用评分的时间缩短到了8秒以内。这使该组织能够迅速批准或拒绝信贷请求。该决策引擎还使 Credilogros 能够最小化每个客户必须提供的身份证明文档,在一些特殊情况下,只需提供一份身份证明即可批准信贷。此外,该系统还提供监控功能。Credilogros目前平均每月使用PASW Modeler处理35000份申请。仅在实现 3 个月后就帮助Credilogros 将贷款支付失职减少了 20%.
数据挖掘帮助DHL实时跟踪货箱温度
DHL是国际快递和物流行业的全球市场领先者,它提供快递、水陆空三路运输、合同物流解决方案,以及国际邮件服务。DHL的国际网络将超过220个国家及地区联系起来,员工总数超过28.5万人。在美国 FDA 要求确保运送过程中药品装运的温度达标这一压力之下,DHL的医药客户强烈要求提供更可靠且更实惠的选择。这就要求DHL在递送的各个阶段都要实时跟踪集装箱的温度。
虽然由记录器方法生成的信息准确无误,但是无法实时传递数据,客户和DHL都无法在发生温度偏差时采取任何预防和纠正措施。因此,DHL的母公司德国邮政世界网(DPWN)通过技术与创新管理(TIM)集团明确拟定了一个计划,准备使用RFID技术在不同时间点全程跟踪装运的温度。通过IBM全球企业咨询服务部绘制决定服务的关键功能参数的流程框架。DHL获得了两方面的收益:对于最终客户来说,能够使医药客户对运送过程中出现的装运问题提前做出响应,并以引人注目的低成本全面切实地增强了运送可靠性。对于DHL来说,提高了客户满意度和忠实度;为保持竞争差异奠定坚实的基础;并成为重要的新的收入增长来源。
数据挖掘帮助Target抢占孕妇用品市场
2011年《纽约时报》报道了一个大数据商业应用成功的案例。美国第二大超市塔吉特(Target)希望抢占孕妇用品这一市场,于是进行了商业新模式的探索。营销人员希望建立一个能够确认怀孕4至6个月孕妇的数据模型,以便先于零售商获取用户怀孕信息。但是怀孕是非常私密的信息,数据分析部门想到了Target之前举办的“迎婴聚会”的用户登记表。通过建模分析对这些登记用户的消费数据进行处理,他们就发现了许多非常有用的信息。比如,在怀孕的前20周大量购买补充钙、镁、锌的保健品。依据这些信息,数据分析部门选出25种典型商品的消费数据以构建“怀孕预测指数”,通过这个指数,Target能够以最大的程度预测到用户的怀孕情况,让市场营销人员提前把孕妇优惠广告寄发给用户,并最终赢得了宝贵的客户资源。
从目前网络招聘的信息来看,大小公司对数据挖掘的需求有50多个方面(来源见参考资料):
1、数据统计分析
2、预测预警模型
3、数据信息阐释
4、数据采集评估
5、数据加工仓库
6、品类数据分析
7、销售数据分析
8、网络数据分析
9、流量数据分析
10、交易数据分析
11、媒体数据分析
12、情报数据分析
13、金融产品设计
14、日常数据分析
15、总裁万事通
16、数据变化趋势
17、预测预警模型
18、运营数据分析
19、商业机遇挖掘
20、风险数据分析
21、缺陷信息挖掘
22、决策数据支持
23、运营优化与成本控制
24、质量控制与预测预警
25、系统工程数学技术
26、用户行为分析/客户需求模型
27、产品销售预测(热销特征)
28、商场整体利润最大化系统设计
29、市场数据分析
30、综合数据关联系统设计
31、行业/企业指标设计
32、企业发展关键点分析
33、资金链管理设计与风险控制
34、用户需求挖掘
35、产品数据分析
36、销售数据分析
37、异常数据分析
38、数学规划与数学方案
39、数据实验模拟
40、数学建模与分析
41、呼叫中心数据分析
42、贸易/进出口数据分析
43、海量数据分析系统设计、关键技术研究
44、数据清洗、分析、建模、调试、优化
45、数据挖掘算法的分析研究、建模、实验模拟
46、组织机构运营监测、评估、预测预警
47、经济数据分析、预测、预警
48、金融数据分析、预测、预警
49、科研数学建模与数据分析:社会科学,自然科学,医药,农学,计算机,工程,信息, 军事,图书情报等
50、数据指标开发、分析与管理
51、产品数据挖掘与分析
52、商业数学与数据技术
53、故障预测预警技术
54、数据自动分析技术
55、泛工具分析
56、互译
57、指数化
其中,互译与指数化是数据挖掘除计算机技术之外最核心的两大技术。
相关视频