-
1 课程内容
-
2 随堂测验
![]()
“大数据”是指以多元形式,自许多来源搜集而来的庞大数据组,往往具有实时性。在企业对企业销售的情况下,这些数据可能得自社交网络、电子商务网站、顾客来访纪录,还有许多其他来源。这些数据,并非公司顾客关系管理数据库的常态数据组。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和/或虚拟化技术。

![]()
1、理论
理论是认知的必经途径,也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。
2、技术
技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。
3、实践
实践是大数据的最终价值体现。在这里分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。
![]()
1、数据体量巨大:从TB级别,跃升到PB级别。
2、数据类型繁多:如前文提到的网络日志、视频、图片、地理位置信息,等等。
3、价值密度低:以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。
4、处理速度快:1秒定律,最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。
![]()
参考文献:
1、王元卓,靳小龙,程学旗.网络大数据:现状与展望 《计算机学报》,2013,36(6):1125-1138
2、L Clifford 《Nature》,2008,455(7209):28-29
3、MA Andrew,BErik 《Harvard Business Review》,2012,90(10):60-6,68,128

