1
文献信息 检索教程  第2版
1.7.1.3 7.1.3 科技查新案例
7.1.3 科技查新案例

【课题中文名称】微博舆情分析与监控方法研究

【课程英文名称】The research on public opinion analysis and monitoring for themicroblogging method

【查新目的】高等学校博士学科专项科研基金项目申请

【课题的技术要点】

(1)从复杂系统复杂网络理论的角度出发,对微博中的话题和用户分别进行分析,将话题之间的关系、用户之间的关系抽象为复杂网络,在这个网络中确定关键节点。话题关键节点代表了容易被转发以及发生衍变的话题,用户关键节点代表了在舆论传播中发挥重要作用的用户。对这两个关键节点进行分析和监管有利于对微博舆情发展的整体性把控。

(2)利用改进的隐马尔科夫模型,对微博中的话题的发展和衍变进行时间衍变分析。隐马尔科夫模型已经被证实是一种时间序列建模的有效工具。微博话题的发展和衍变也是随着时间的变化而逐步推进的,因此采用隐马尔科夫模型对于微博话题建模是合理可行的。通过对微博话题的时间衍变性进行分析,可以判定一个话题的质变点(从中性言论到不良言论),大大提高监管效率。

【查新点】

基于复杂网络理论的微博用户和话题相结合的微博舆情分析与监控。

基于改进的隐马尔科夫模型的微博话题衍变分析方法。

【查新点分析】查新点1侧重于复杂网络理论,将微博用户和话题结合;查新点2侧重于改进的隐马尔科夫模型的话题衍变研究。

【委托人给出的检索词】

中文检索词:舆情,复杂网络,隐马尔科夫。

外文检索词:public opinion,complex networks,hidden markov

【检索词分析】

确定了查新点后,查新人员先根据课题背景和用户提供的检索词进行试检索。根据检索结果分析,舆情概念虽然较新,但是近几年的研究发展迅猛,检索出来的文献太多,有些文献相关度不高。而该查新课题更侧重于微博舆情、舆情网络,选用这两个检索词,检索结果相关度有所提高,于是确定这两个词作为检索词。在检索文件的相关文献中还发现了复杂网络的同义词“复杂系统”,隐马尔科夫科夫模型还有简写“HMMF”“时间序列”与本项目关系也比较大,检索结果比较符合。英文关键词,除了和舆情相对应的public opinion这个词外,buzz和tweet这两个英文单词和舆情语义有相似性,也确定为外文检索词。

【最终确定的检索词】

中文检索词:微博舆情,网络舆情,复杂网络,隐马尔科夫,HMMF,时间序列。

外文检索词:public opinion,buzz,tweet,complex networks,complex system,hidden markov,HMMF,time series。

【检索式】

中文检索式:(舆情OR网络舆论)AND(复杂网络OR复杂系统OR隐马尔科夫OR HMMFOR时间序列)

外文检索式:(public opinion OR buzz OR tweet)AND(complex networks OR complex system OR hidden markov OR HMMFOR time series)

【检索范围】

中文数据库选择CNKI、万方、维普,基本涵盖了国内的期刊、学位论文、会议论文,科技成果、专利、标准等。外文数据库选择EI、INSPEC、SCI、CPCI-S等文摘数据库,选择IEL、ACM、Springer、Elsevier等与计算机学科相关的全文数据库,选择PQDT国外学位论文数据库,选择EI平台上的US Patents、European patents国外专利数据库,选择Dialog联机检索数据库,进行检索。

【相关文献的选择】

对以上数据库检索出的文献进行筛选,结合查新点找出密切相关文献。因为是立项申请,在密切相关文献类型的选择上,侧重于期刊论文、会议论文、学位论文和专利文献。

【相关文献的筛选原则】

相关文献尽可能全。

相关文献内容与委托项目技术内容尽可能贴切。

最密切的相关文献不能少。

不要冗余文献。

【查新结论】

查新结论是查新报告的精髓和归结,也是评审专家或上级部门对项目审定和成果鉴定时的必读部分和决策依据之一。查新结论对查新点的新颖性做出判断,文字表述应该客观、公正、准确、简明、严谨,应以检索结果中的相关文献内容为依据,不得带有倾向性的个人色彩的描述,更应避免赞誉之辞和广告性用语。

应针对查新点结合相关文献逐一进行对比分析,不可不加拆分地笼统对比。对确具有新颖性的查新点,应说明其与相关文献的区别;对不具有新颖性的查新点,应说明其与相关文献相似或相同的理由。

查新结论的结构:针对查新点分析对比。通过对检索到的中英文密切相关文献进行分析对比,中文文献1将舆情网络的页面视为节点,链接关系作为边,而该查新课题以话题为节点,以传播关系为边,并考虑到传播途中用户之间的转发关系;中文文献2对网络舆情的传播规律进行了实证分析和理论研究,而该查新课题项目着重分析热点话题的衍生关系以及用户之间的转发关系,侧重于舆情信息的传播态势;中文文献3已确定群体性事件舆情信息传播的演化机理,而该查新课题不限制于突发群体事件。英文文献1利用小世界理论模型对舆情信息的产生进行分析,而该查新课题侧重于微博舆情信息的传播途径;英文文献2研究舆情形成及传播过程中个人属性、环境影响以及信息流所起的作用,而该查新课题侧重于从众多舆论话题和传播者中找出关键热点信息和传播关键节点;英文文献3的分析方法适用于博客等普通的网络传播方式,而该查新课题项目侧重于微博舆情的传播,6篇文献均与查新点1有所区别。

文献4提出了一种基于马尔科夫链的舆情热度趋势分析模型,而该查新课题的研究内容是舆情内容的衍变;中文文献5建立相应的预测模型,预测网络舆情的发展趋势,而该研究课题引入隐马尔科夫模型,从时间和内容两个方面研究话题衍变;中文文献6针对战争舆情演化仿真需求,提出了构建战争舆情演化模型的思路,而该查新课题涉及的话题不限制于战争舆情,且采用隐马尔科夫模型进行建模;英文文献4利用隐马尔科夫模型对网络舆情的发展进行预测,互联网舆论的状态表示为隐藏状态的隐马尔科夫模型,而该查新课题将微博舆论的时间状态表现为可见状态的隐马尔科夫模型,将微博舆论的危害性表现为隐藏状态的隐马尔科夫模型进行分析预测;英文文献5提出基于时间序列的网络舆论预测模型,而该查新课题利用隐马尔科夫模型对整个开放平台中的话题进行预测,5篇文章均与查新点2有所区别。

综合分析检索到的国内外相关文献,并与委托项目的查新点进行对比分析,得出结论,本次查新在国内外公开发表的中英文文献中,未检索到基于复杂网络理论确定微博和话题关键点,并且利用改进的隐马尔科夫模型对微博话题进行时间衍变分析的微博舆情分析与监控方法的文献和报道。

【案例小结】

该查新课题的研究内容很符合社会的需求,属于传播学和计算机科学交叉研究的范畴。该查新的难点在于检索词的选择上,大量的时间投入在开始阶段的背景了解、和委托方沟通以及在数据库里面试词检索上,确定了检索词后,根据逻辑关系分析检索词之间的关系也是难点。在文献对比分析上,注意各个查新点的对应,突出该查新课题的查新点。