第一节 网络舆情监测技术
一、数据采集
网络爬虫,又称为网络蜘蛛或web信息采集器,是一个自动下载网页的计算机程序或自动化脚本,是搜索引擎的重要组成部分。
1.网络爬虫的类型
(1)批量型爬虫(batch crawler)。批量型爬虫有比较明确的抓取范围和目标,当爬虫达到这个设定的目标后,即停止抓取过程。批量型爬虫是目前数据采集系统中最简单的爬虫系统。
(2)增量型爬虫(incremental crawler)。增量型爬虫会保持持续不断的抓取,对于已经抓取过的网页会按照一定策略定期更新。增量型爬虫是目前数据采集系统中最常用的爬虫系统。
(3)垂直型爬虫(focused crawler)。垂直型爬虫只关注特定主题或特定行业的网页,其最大的挑战就是如何识别网页的内容是否属于指定行业或主题。一般只有垂直行业分析才会需要此类型的爬虫。
2.网页去重
在当今的互联网环境中,有相当大比例的内容是完全相同或者大体相近的。这些网页不仅会增加数据采集系统的压力,而且会影响后续数据分析结果的质量,所以网页去重的问题尤为突出,已经成为提高数据质量的关键技术之一。
3.分布式技术
面对海量的数据抓取任务,只有采取分布式架构才有可能在较短的时间周期内完成一轮抓取工作。常见的分布式架构有两种:主从式分布爬虫和对等式分布爬虫。
二、数据可视化技术
1.什么是可视化
数据可视化是研究数据和信息视觉呈现的学科。它解决的问题一方面是如何将冰冷枯燥的数据和信息用有趣直观的方式呈现给受众,另一方面也是视觉分析的方法,帮助人们理解大量的复杂的数据背后隐藏的故事和洞察。
思考:为什么要实现可视化?
2.可视化技术
(1)词云的制作,Tagxedo词云制作。
(2)Excel高级应用
(3)ECharts
3.大数据时代网络舆情监测技术遇到的挑战
(1)大数据的由来
一般认为,最早提出“大数据”这一说法的是美国麦肯锡全球研究院(MGI)于2011年5月发表的一篇研究报告《大数据:未来创新、竞争、生产力的指向标》。
(2)大数据的特征
Volume(大量):
Velocity(高速):
Variety(多样):
Value(价值):
(3)大数据对舆情的价值和影响
大数据时代,对信息的加工是基础。
大数据时代,对数据的解释是关键。
大数据时代,对趋势的研判是目标。
大数据时代,分众服务是方向。
(4)大数据带来的问题
对于深层次的多级舆情信息,如新闻、微博后的评论,网民的社会关系,网民针对某一事件评论反映出的情绪变化,以及网民煽动性、行动性的言论、暗示等数据无法深度挖掘,仍靠人工采集和分析判断。
(5)大数据下的解决方案
(一)加强大数据技术平台的建设
(二)引进培养大数据人才
(三)加强各数据渠道的合作,指定量化体系指标

