数据可视化

余凌 胡昌龙 严庆 田萌

目录

  • 1 数据可视化概述
    • 1.1 思政导读
    • 1.2 数据可视化基础
    • 1.3 数据可视化作用
    • 1.4 数据可视化的目标
    • 1.5 数据可视化的特征与应用
    • 1.6 本章课件
    • 1.7 分享阅读-AaronKoblin人性的艺术表达
  • 2 数据可视化原理
    • 2.1 思政导读
    • 2.2 视觉
    • 2.3 色彩
    • 2.4 视觉编码原则
    • 2.5 数据可视化流程
    • 2.6 本章课件
    • 2.7 分享阅读-
  • 3 数据可视化图表
    • 3.1 思政导读
    • 3.2 理解图表
    • 3.3 图表元素的增强控制
    • 3.4 图表类型选择
    • 3.5 图表制作技巧
    • 3.6 本章课件
    • 3.7 数据可视化图表基础及图表设计+第二次作业要求
    • 3.8 分享阅读-
  • 4 数据可视化设计
    • 4.1 思政导读
    • 4.2 设计原则与技巧
    • 4.3 可视化设计步骤
    • 4.4 可视化框架
    • 4.5 本章课件
    • 4.6 分享阅读-
  • 5 时变数据可视化
    • 5.1 思政导读
    • 5.2 时间属性的可视化
    • 5.3 地理空间数据可视化
    • 5.4 文本与文档可视化
    • 5.5 本章课件
    • 5.6 分享阅读-
  • 6 数据挖掘与数据处理
    • 6.1 思政导读
    • 6.2 数据
    • 6.3 数据集
    • 6.4 数据获取与预处理
    • 6.5 数据存储
    • 6.6 数据组织与管理
    • 6.7 数据挖掘与分析
    • 6.8 本章课件
    • 6.9 分享阅读-
  • 7 数据可视化工具
    • 7.1 Echarts
    • 7.2 Python集成开发环境Jupyter
    • 7.3 本章课件
  • 8 数据可视化评测实例
    • 8.1 案例1
    • 8.2 案例2
    • 8.3 本章课件
  • 9 数据可视化趋势及挑战
    • 9.1 思政导读
    • 9.2 数据可视化资源
    • 9.3 数据可视化研究
    • 9.4 未来趋势
    • 9.5 研究挑战
    • 9.6 本章课件
  • 10 数据可视化案例
    • 10.1 经典数据可视化案例
    • 10.2 用Excel实现数据可视化—快速实现业务报表可视化
    • 10.3 “好服务”零售品牌文献研究现状分析
    • 10.4 数据分析师招聘可视化分析
    • 10.5 长江中游城市群创新网络演变可视化
    • 10.6 分享阅读-2020级优秀作品展示
    • 10.7 分享阅读-2021级学生优秀作品
  • 11 电子商务数据可视化实例
    • 11.1 电商数据的采集与预处理
    • 11.2 商品数据分析
    • 11.3 市场数据与竞争数据分析
    • 11.4 流量与转化数据分析
    • 11.5 电商采购与销售数据分析
    • 11.6 库存数据分析
    • 11.7 客户画像分析
  • 12 推荐课外阅读
    • 12.1 《深度学习——智能时代的核心驱动力量
    • 12.2 《AIGC:智能创作时代》
    • 12.3 《天才与算法》
    • 12.4 《5000天后的世界》
    • 12.5 《AI未来进行式》
    • 12.6 《数据型思维》
    • 12.7 《做成大事的艺术》
    • 12.8 《新媒体的语言》
    • 12.9 《开放式创新》
    • 12.10 《别相信直觉》
    • 12.11 《为什么伟大不能被计划》
    • 12.12 《智识分子》
    • 12.13 《算法的陷阱》
    • 12.14 《崛起的超级智能》
    • 12.15 《人工不智能:计算机如何误解世界》
    • 12.16 《销售脑科学》
文本与文档可视化

5.3.1文本可视化释义

文本信息无处不在,邮件、新闻、工作报告等都是日常工作中需要处理的文本信息。面对文本信息的爆炸式增长和日益加快的工作节奏,人们需要更高效的文本阅读和分析方法,文本可视化正是在这样的背景下应运而生的。

一图胜千言,指一张图像传达的信息等同于用相当多文字的堆积描述。考虑到图像和图形在信息表达上的优势和效率,文本可视化技术采用可视表达技术刻画文本和文档,直观地呈现文档中的有效信息。用户通过感知和辨析可视图元提取信息。因而,如何辅助用户准确无误地从文本中提取并简洁直观地展示信息,是文本可视化的核心问题之一。

文本可视化应用广泛,其中标签云技术是诸多网站展示其关键词的常用技术,信息文本图是美国纽约时报等各大纸媒辅助用户理解新闻内容的必备方法。同时文本可视化还可与其他领域相结合,如信息检索技术,可以通过可视化来描述信息检索过程,传达信息检索的结果。

1)文本信息的层级

文本信息涉及的数据类型多种多样,如邮件、新闻、文本档案、微博等。文本是语言和沟通的载体,但文本的含义以及读者对文本的理解需求纷繁复杂。例如,对于同一段文字,不同的人有不同的解读,有人希望了解文章的主题与关键词,有人则希望了解文章中所涉及的人物等。这种对文本信息需求的多样性,要求从不同层级提取与呈现文本信息。文本信息的提取由浅入深可总结为三个层级。

词汇级词汇级(LexicalLevel)信息指从一连串的文本文字中提取的语义单元信息。语义单元(Token)是指由一个或多个字符组成的词元,它是文本信息的最小单元。词汇级可提取的信息包括文本涉及的字、词、短语,以及它们在文章内的分布统计、词根词位等相关信息,常见的文本关键字即属于词汇级别。语义单元通常通过基于规则分割文本的分词技术(Tokenization)提取,最常用的方法是正则表达式定义的有限状态机。

语法级语法级(SyntacticLevel)信息指基于文本的语言结构对词汇级的语义单元进一步分析和解释而提取的信息。语义单元的语法属性属于语法级信息,例如词性、单复数、词与词之间的相似性,以及地点、时间、日期、人名等实体信息,这些属性可以通过语法分析器识别。语法级信息的提取过程被称作命名实体识别方法(NamedEntityRecognition)。

语义级语义级(SemanticLevel)信息是研究文本整体所表达的语义内容信息和语义关系,是文本的最高层信息。它不仅包括深入分析词汇级和语法级所提取的知识在文本中的含义,如文本的字词、短语等在文本中的含义和彼此间的关系,还包括作者通过文本所传达的信息,如文档的主题等。

2)文本可视化的研究内容与任务

人类理解文本信息的需求是文本可视化的研究动机。一个文档中的文本信息包括词汇、语法和语义三个层级。此外,文本文档的类别多种多样,包括单文本、文档集合和时序文本数据三大类别,这使得文本信息的分析需求更为丰富。比如,对于一篇新闻报道,内容是人们关注的信息特征;而对于一系列跟踪报道所构成的新闻专题,人们关注的信息特征不仅指每一时间段的具体内容,还包括新闻热点的时序性变化。文本信息的多样性不仅丰富了文本可视化的研究内容,还引出了不同的分析任务与可视化任务。

研究内容:文本可视化的研究内容可从多个角度总结。例如,以文本文档的类别作为归纳标准的文本可视化,可分为单文本可视化、文本集合可视化和时序性可视化。以文本文档的内容作为归纳标准,则可分为文学作品可视化、在线社交媒体可视化、科学论文或专利可视化、在线沟通数据可视化、电影影评可视化、医疗报告可视化。

分析任务:根据不同的研究内容,用户在进行文本分析时往往需要完成不同的分析任务。常见的分析任务有,对文本的内容、特征进行总结(包括对词汇、句法的分析),分析文本中讨论的主题,研究文本中蕴含的情感,挖掘文本中描述的事件,关联分析多源文档数据的内容、特征等。

可视化任务:分析任务描述了高层次的用户分析需求,而可视化任务则描述了相对低层次的展示和交互需求。在进行文本分析时,用户需要针对特定的分析任务及可视化任务选择相应的可视化方法。常见的可视化任务包括,找到一个文档中用户感兴趣的内容,对文本的内容、特征进行聚类或分类,比较文档和文档集合的各种信息,查看文本内容的总体概览,对文本内容进行浏览与探索,对文本中的不确定性进行分析等。

3)文本可视化流程

文本可视化的工作流程涉及三个部分:文本信息挖掘、视图绘制和人机交互,如图5-11所示。文本可视化是基于任务需求的,因而挖掘信息的计算模型受到文本可视化分析任务的引导。可视和交互的设计必须在理解所使用的信息提取模型的原理基础上进行。

 

5-11文本可视化流程

文本信息挖掘

在文本信息挖掘层次,需要依据文本可视化的任务需求,分析原始文本数据,从文本中提取相应层级(词汇级、语法级或语义级)的信息,例如文章的关键词等。通常,文本信息挖掘包括以下三个方面。

a.文本数据的预处理

文本信息的提取通常基于文本内容进行,然而,原始文本存在着无用甚至干扰的信息。以英文单词为例,单词的单复数变化、词性变化等都会影响文本的信息度量。此外,原始文本数据的格式亦是多种多样的。因此,对文本数据进行预处理能够有效过滤文本中的冗余和无用信息,提取重要的文本素材。

b.文本特征的抽取

文本分析任务需要相关的文本特征来度量,可采用文本挖掘技术提取任务所需要的特征信息,比如,词汇级的关键词、词频分布,语法级的实体信息,语义级的主题等。

c.文本特征的度量

在有些应用环境中,用户可能会对在多种环境下或从多个数据源所抽取的文本特征的深层分析感兴趣,比如,文本主题的相似性、文本分类等。基于度量特征的相似性算法、聚类算法等可用于此类分析。其中,向量空间模型是最常用的方法。

视图绘制

这一阶段将文本挖掘所提炼的信息变换为直观的可视视图。在直观的可视图元的辅助下,用户可以快速地获取信息。视图绘制常常涉及两个方面:图元设计和图元布局方法。优秀的图元设计需要准确无误地承载文本的信息特征,如雷达图、ChernoffFacesChernoffFace)等。图元布局算法则要求有效而不失美感地布局图元,使得可视表达符合人类的感知。常用的布局算法包括力引导布局算法、树图算法等。

人机交互

人机交互是关于用户如何生成视图和满足分析需求而操作视图的技术。

5.3.2文本信息分析基础

在文本可视化领域中,文本信息挖掘的方法丰富多样。获取词汇级信息,我们可以采用各种分词算法,针对语法级信息也有多种句法分析算法,而语义级信息则可采用主题抽取算法等。本节将列举文本可视化中最常用的一些文本分析技术。

1)分词技术和词干提取

分词技术和词干提取方法通常用于文本数据的预处理。分词(Tokenization)指将一段文字划分为多个词项,剔除停词,从文字中提取出有意义的词项。词干提取(Stemming)指去除词缀得到词根,得到单词最一般写法的技术。词干提取避免了同一个词的不同表现形式对文本分析带来的干扰。

以马汀·路德·金的“Ihaveadream”演讲的一段为例。

“Ihaveadreamthatonedaythisnationwillriseupandliveoutthetruemeaningofitscreed:‘Weholdthesetruthstobeself-evident,thatallmenarecreatedequal.”

经过分词后,这段话可提取出20个词项:Ihavedreamonedaynationriseupliveouttruemeaningcreedholdtruthsself-evidentallmencreatedequal。注意到athethat等对文本语义影响较弱的停词已经被剔除。

2)数据模型

词汇级模型

a.向量空间模型

无结构的文本数据无法直接用于可视化,因此,采用合适的文本度量方法从文本中提取结构化的信息非常重要。向量空间模型(VectorSpaceModel)指利用向量符号对文本进行度量的代数模型,指代一系列向量空间的定义、生成、度量和应用的方法与技术,常用于自然语言处理、信息检索等领域。

b.词袋模型

词袋模型(Bag-of-wordsModel)是向量空间模型构造文本向量的常用方法,用来提取词汇级文本信息。在过滤掉停词等对文本内容影响较弱的词之后,词袋模型将一个文档的内容总结为在由关键词组成的集合上的加权分布向量。在基于词袋模型计算的一维词频向量中,每个维度代表一个单词;每个维度的值等于单词在文本中出现的统计信息,可引申为重要性;单词间没有顺序关系。词袋模型没有考虑语法、词序等深层信息,因而直观易懂。在文本分析过程中,采用词袋模型抽取的词频向量可为更高层的文本分析提供底层的数据支持。

c.文本相似性度量

向量空间模型可用于度量文本之间的相似性。它采用词项-文档矩阵来构建多个文档的数学模型,其中,一个向量代表一个文本(如文本词频特征向量),并施以空间向量的运算来刻画多个文本向量间的语义相似性。整个计算过程简单且直观易懂。

向量空间模型可应用于不同的文本分析、文本可视化和信息检索任务中。

d.TF-IDF

对于向量空间模型来说,为文档中的每个词合理地分配权重非常重要。例如,上文介绍的文本相似性度量的计算中,每个词的权重对最后的相似性度量影响很大。在很多词的权重分配模型中,TermFrequency-InverseDocumentFrequencyTF-IDF)是最常用的方法。TF-IDF用以评估一个单词或字对于一个文档集或一个语料库中的其中一份文档的重要程度,其核心思想是:字词对于某个文档的重要性随着它在这个文档中出现的次数成正相关增加,但同时会随着它在文档集中出现的频率而负相关下降。

e.N元语法

N元语法(N-grams)是一种常用的语言模型,可用于估计文本中某个单词序列出现的概率。根据相对频率计数估计概率是最直接的概率估计方式。但语言往往具有创造性,即使在互联网中搜索某个完整的语句,也难以找到完全一致的匹配项,因此我们无法获取足够大的语料库来计算一个合适的概率分布。N元语法利用了概率计算的链式规则,将一个单词序列出现的概率转化为在这个单词序列中所有单词在已有单词的基础上出现的条件概率,并通过N-1阶马尔可夫链原理,将每个单词出现的条件概率简化为在已有的N-1个单词的基础上的条件概率。

语法级模型

语法分析树(或分析树,ParseTree)是一种用于反映文本语句及其语法关系的有序树结构。语法分析树可按照短语结构语法(PhraseStructureGrammar)或依存语法(DependencyGrammar)中的依赖关系来生成。以基于短语结构语法的语法分析树为例(见图5-12),它区分了语法结构中的终端和非终端节点,树结构的叶节点用来表示终端节点,而内部节点则表示非终端节点。

 

 

5-12基于短语结构语法的语法分析树

常用的语法分析树构建算法分为自顶向下和自底向上两类。自顶向下算法从树结构的根节点开始构建,包括上下文无关语法、概率上下文无关语法、Earley算法等;自底向上算法则相反,它从树结构的叶节点开始构建,包括Cocke-Kasami-Younger算法等。自顶向下和自底向上两种算法各有优缺点,其中自顶向下算法能够尽可能避免搜索不可能在给定根节点的树中找不到位置的子树;而自底向上算法则能够避免搜索不以实际输入为基础的树。

语言义模型

a.主题抽取

主题模型指从语义级别描述文本集合内各个文本的语义内容,即文本的主题描述。主题模型将文本数据建模为如图5-13所示的模型,一个文档的语义内容可描述为多个主题的组合表达,而一个主题可认为是一系列词的概率分布或权重分布。

 

5-13基于主题的文本信息模型

文本主题的抽取算法大致可分为两类:一类是基于矩阵分解的非概率模型,一类是基于贝叶斯的概率模型。

在非概率性方法中,词项-文档矩阵被投影到K维空间中,其中,每个维度代表一个主题。在主题空间中,每个文档用K个主题的线性组合表达而成。隐含语义检索(LatentSemanticIndexingLSI)是代表性的非概率模型,它基于主题间的正交性假设,采用SVD分解词项-文档矩阵。

在概率性的主题模型算法中,主题被看成多个词项的概率分布,文档理解为多个主题的组合而产生。一个文档的内容是在主题的概率性分布基础上,从主题的词项分布中抽取词条而构成。

b.词嵌入模型

词嵌入是自然语言处理中语言模型和表征学习技术的统称。它将每个单词表示为一个高维向量(常见的表示包括独热表示、分布式表示等),再将这个高维向量嵌入一个低维连续向量空间中。每个单词或词组最终被映射为实数域上的向量,从而可以更方便地刻画目标词与上下文的关系。

5.3.3文本内容可视化

1)基于关键词的文本内容可视化

关键词是从文本的文字描述中提取的语义单元,可反映文本内容的侧重点。关键词可视化指以关键词为单位可视地表达文本内容。关键词的提取原则多种多样,常见的方法是词频,即越是重要的单词,其在文档中出现的频率越高。

标签云

标签云(TagCloud,又名TextCloudWordCloud)是最简单、最常用的关键词可视化技术,它直接抽取文本中的关键词并将其按照一定顺序、规律和约束整齐美观地排列在屏幕上。关键词在文本中具有分布的差异,有的重要性高,有的重要性低。标签云能够利用颜色和字体大小反映关键词在文本中分布的差异,比如,用颜色或字体大小,或者它们的组合来表示重要性,越是重要的词汇,其字体越大,颜色越显著,反之亦然。标签云可视化将经过颜色(或字体大小)映射后的字词按照其在文本中原有的位置或某种布局算法放置。如图5-14所示的是著名的“Ihaveadream”演讲的标签云可视化结果,字体和颜色与单词在文章中的重要性(即词频)正相关。

 

5-14标签云可视表达“Ihaveadream”的内容

Wordle是另一种广泛应用的标签云衍化技术。和标签云方法一样,Wordle利用颜色和字体映射关键词的重要性,但Wordle在空间利用和美学欣赏方面有所提升。用户可自定义画布填充区,比如正方形、圆形或花瓶形状等。此外,降序查找每个单词的位置。路径定义的多样性,使Wordle可以实现各种美观的布局效果图。如图5-15所示的是Wordle可视表达“Ihaveadream”的结果。Wordle布局算法伪代码如下:

 

 

5-15Wordle可视表达“Ihaveadream”的内容

EdWordle是传统Wordle的一种拓展形式,是一种可持续编辑词云的方法。EdWordle的核心是允许用户移动和编辑单词,同时保留其他单词的邻域。它通过将约束性刚体仿真与局部Wordle算法相结合,来更新词云并创建紧凑的布局。EdWordle的一致性和稳定性使用户能够创建新形式的词云,例如故事云。如图5-16所示为Wordle(左图)与EdWordle(右图)的布局效果对比。

 

5-16一位专业作家对一则BBC新闻词云的布局调整。左:Wordle布局;右:使用EdWordle创建的布局

文档散(DocuBurst

文档散(DocuBurst)不仅采用关键词可视化文本的内容,还借鉴这些关键词汇在人类词汇中的关系来布局关键词。在人类词汇中,单词间存在语义层级关系,即有些词是其他词元的下义词,而在一篇文章中,单词和其下义词往往是并存的。为了从词汇间的语义层次角度可视总结文档的内容,DocuBurst采用径向布局,外圈的词汇是里圈词汇的下义词,圆心处的关键词是文章所涉及内容的最上层概述。每一个词的辐射范围覆盖其所有的下义词。

文档卡片(DocumentCards

文档卡片法采用文档中的关键图片和关键词来可视地呈现文档的内容。文档集合中每个文档的关键词和关键图片被紧凑地布局在一张卡片中,成为一张扑克牌,这样便于用户在不同尺寸的设备中查看和对比每个文档的信息。其中,关键图片指采用智能算法抽取图片并根据颜色直方图进行分类后,从每一类图片中选取的代表性图片。

2)时序性的文本内容可视化

时序数据是指具有时间或顺序特性的文本,例如一篇小说故事情节的变化,或一个新闻事件随时间的演化。

主题河流(ThemeRiver

主题河流(ThemeRiver)是一种经典的时序文本可视化方法。光阴似水,用河流来隐喻时间的变化几乎所有人都能非常好地理解。

如图5-17所示,横轴表示时间,每一条河流代表一个主题,河流的宽度代表其在当前时间点上所有文本主题中所占的比例。多个主题流叠加在一起,用户既可以看出特定时间点上主题的分布,又可以看到多个主题的发展变化。

 

5-17采用主题河流可视表达19906月至8月间AP新闻数据的主题演变

TIARA

TIARA结合了标签云,通过主题分析技术(latentdirichletallocationLDA),将文本关键词根据时间点放置在每条色带上,并用词的大小来表示关键词在该时刻出现的频率。因此用TIARA就可以帮助用户快速分析文本具体内容随时间变化的规律,而不是仅仅一个度量带变化。

如图5-18示,TIARA将标签云技术与主题流结合,用其来描述文本主题在内容上随时间推进而发生的变化。其中每一个条带代表一个主题,辅助用户更好地理解各个主题的关键词信息以文本云的形式结合在主题流中。此外,TIARA为每个文本主题在每个时间点上提取出不同的关键词,然后将这些词排布在相应色带上的相应位置,并用词的大小表示关键词在该时刻出现的频率。为了紧凑美观地排列主题支流,TIARA系统还设计了一系列自动调节支流顺序的算法。

 

5-18TIARA可视化邮件内容

历史流(HistoryFlow

除了时序性主题可视化,文本内容的文字随着时间推移而发生的变化也是用户分析所需要观察的。众所周知,维基百科上的文章由众多作者共同维护,每一个作者的维护都会产生新的版本。历史流(HistoryFlow)方法的设计初衷是可视地表达每个版本的维护者和他们所做的修改。由此,我们可以看出文字的插入、删除和添加等修改。

3)文本特征的分布模式可视化

除了关键词、主题等总结性文本内容,文本可视化还可用于呈现文本特征在单个文档或文档集合中的分布模式,如关键词、句子的平均长度及词汇量等。

文本弧(TextArc

文本弧TextArc用来可视化一个文档中的词频和词的分布情况。整个文档用一条螺线表示,文档的句子按文字的组织顺序布局在螺线上,螺线包围着的是文档中出现的单词,每个单词的位置由其在文本中的频率和出现位置决定,饱和度用来映射词频。所以全局出现频率越高的词越靠近中心,而局部出现频率越高的词越靠近其相应的螺线区域。选中某个单词后,自动用射线关联到它在文中出现的位置。

文献指纹(LiteratureFingerprinting

文献指纹(LiteratureFingerprinting)是体现全文特征分布的一项工作。一个像素块代表一段文本,一组像素块代表一本书。颜色映射的是文本特征。

文本特征透镜(FeatureLens

文本特征透镜(FeatureLens)方法用于可视化文本特征在一个文档集合中不同粒度的分布情况,如关键词、短语和句子的频率。利用自身包含的文本挖掘模块提取出集合中频繁出现的文本特征后,FeatureLens可视化不同层级的文本特征分布,使用户既可概括性地查看文本特征在文本集合中的分布,还可查看在单个文本中的分布。FeatureLens采用了直方图度量频率分布的情况,并用三个视图来展示统计结果.演讲时间作为每个文档的标签。中间上方的文档集合视图利用折线图概括性可视化每个词项在文档集合中的分布,中间下方的文档视图可视化4个词项总结在单个文档中的分布。每个文档可视化为一个子窗口,窗口中的每列代表一个词项,每行代表一个段落。颜色条指示词项在文档中各个段落的分布情况。用户可在文档视图中选取文档,并利用右方的文本视图可视化4个词项在文本文字中的分布。

平行标签云

平行标签云(ParallelTagClouds)结合平行坐标和标签云技术可视化文本的不同层面的特征与信息。折线可视化用户感兴趣的关键词在不同层面的分布情况。这种方法有助于用户直观地比较不同层面的文本内容的差异。

5.3.4文本关系可视化

基于文本关系的可视化旨在可视表达文本或文档集合(CorpusDocumentCollection)内蕴含的关系信息,比如文本之间的引用、网页之间的超链接关系、文本之间内容的相似性和文档集合内容的层次性等。各种图的布局和投影是常用的表达文本关系的可视化方法。

1)文档相似性可视化

多个文档之间的相似和差异是人们对一个文档集合非常感兴趣的问题。由于逐一显示每个文档中的特征或词语并不现实,所以通常对单个文档定义一个特征向量,利用向量空间模型计算文档间的相似性,并采用相应的投影技术呈现文档集合的关系。主元分析(PrincipalComponentScalingPCA)、多维尺度分析(MultidimensionalScalingMDS)和自组织映射(Self-organizingMapSOM)是常用的投影算法。

星系视图(GalaxyView

星系图(GalaxyView)把一篇文档比作一颗星星,通过投影的方法把所有文档按照其主题的相似性投影为二维平面的点集,星星离的越近则代表文档越相似,因此一个星团可以非常直观地看出文档主题的紧凑和离散。

当用户查看文档点的分布时,犹如在观看星空。密集的点簇代表文档集合中有很多关于描述同一类主题的文档,点越多越密集代表这一类文档的数量越多,多个点簇反映了文档集合涉及的不同主题内容。

主题地貌(ThemeScape

主题地貌(ThemeScape)是对星系图的改进。地图中的等高线相信大家都能够理解,把等高线加入投影的二维平面中,文档相似性相同的放在一个等高线内,再用颜色来编码文本分布的密集程度,把二维平面背景变成一幅地图,这样就把刚才星系图中的星团变成了一座座山丘。文档越相似,则分布约密集,这座山峰就越高(见图5-19)。主题地貌方法比星系视图方法更直观地揭示了文档集合的主题分布和每个主题所涉及的文档数量的差异性对比。

 

5-19采用主题地貌方法可视表达2600篇专利文献

基于范例的大文本集合投影

常见的文本投影方法一次性将所有文本投影到二维空间中,如果数量过大,则可视化结果比较混乱。此外,上万个文本一次性投影到空间中,文本点之间的重叠是不可避免的。基于范例的大文本集合投影方法先将少量样例文本投影到二维空间,再根据用户选取的样例,后续选择一些相关的文本投影在二维空间中。在图5-20中,将基于范例的大文本集合投影方法应用于20Newsgroups,一种颜色代表一类文本,每个小图元代表一个文本。(a)是所有的文本全部投影在二维空间中的结果;(b)显示了每类文本中代表性文档的二维投影;(c)是在(b)中用矩形框选中的样例文本的投影结果。

 

 

5-20基于范例的大文本集合投影

StarSPIRE

除常用的投影方法外,还可以构造图结构描述文档间的相似性。StarSPIRE在力引导布局的基础上,提出了多模型语义交互的流程(见图5-21),用户可以进行交互的空间化,将其数据知识外化。然后将这些相互作用转换为参数反馈给多个内在的模型,以便更新数据的空间表示来反映这些变化。

 

5-21广义的多尺度语义交互可视化流程图

在过程中可插入任何数量的模型,一旦用户感知到空间化,他们就可以选择与之交互,这种交互反馈被理解为一个或多个相反模型的输入。更新后的模型参数和原始数据一起被用于更新空间布局。

StarSPIRE可视化原型中,图布局使用修改后的力引导布局,节点表示封闭的文档,并根据搜索关键词进行了颜色编码。节点的大小和饱和度编码了由文档与用户驱动的实体权重分配方案匹配程度决定的文档相关性。节点的轮廓颜色表示读取/未读状态(白色表示未读,黑色表示读取)。通过与图中的实体进行交互,用户可以小范围地更新图布局,系统会同时大规模地更新文档相似性结果,提供可供选择的相关文档。

2)文本内容关联可视化

单词树(WordTree

单词树(WordTree)从句法层面可视表达文本词汇的前缀关系。单词树方法利用树型结构来可视化文本中的句子。树的根节点是用户感兴趣的一个词,子节点是原文中搭配在父节点后面的词或短语。字体大小反映了词或短语在文中出现的频率。

短语网络(PhraseNets

短语网络(PhraseNets)是经典的力导向图结构,图中的节点是从文本中挖掘出的词汇级或语法级的语义单元,边代表语义单元的联系,边的方向即短语的方向,边的宽度是短语在文本中出现的频率。图5-22展示了采用短语网络可视表达小说JaneEyre中的“*the*”关系。

 

5-22采用短语网络方法可视表达小说JaneEyre中的*the*”短语关系

新闻地图(NewsMap

TreeMap也是一种经典的可视化关系布局。NewsMap就是基于TreeMap展示新闻,颜色用于区分新闻类型。如图5-23所示,采用新闻地图方法对在线新闻进行可视化。颜色用于区分新闻类型,包括全球、本国、商业、科技等类型。

5-23采用新闻地图方法对在线新闻进行可视化

3)文档集合关系可视化

JigSaw

Jigsaw通过提供多种视图让用户交互分析文档间的关系。最下面是文档视图,里面是单个文档的内容,最上面列表图中每一行是文档中的一个实体,连线代表实体间的关系。中间部分,左面是一副节点-链接图,白色节点表示一篇文档,其他节点是文档中的实体,链接同样代表联系;右面的散点图中,一个菱形代表两个实体的联系。

a)列表视图表达二元实体集合间的关联关系。左边是一类文本中出现的实体集合,右边是另一类实体集合,线段代表两类实体集合间的关联关系。这种方法尽管因布局受限导致空间利用率不高,但简单直观,易于观察。用户关心的实体(如人名)用黄色高亮显示,颜色深浅可表示其关联程度,边链接表达两类文本信息的关联。此外,用户还可对列表视图的行记录按需要的顺序排序。例如,按其关联度降序排列行记录,帮助用户全面分析文本实体间的关联关系。(b)节点-链接图可视化文档和其所涉及的实体信息。白色的大圆代表一个文档,其他颜色的小圆代表文档集合中出现的实体,边表达文档和有关的实体联系。(c)散点图代表实体和实体间的关系,即菱形所代表的是共同涉及的文档。(d)文本内容视图,辅助用户从最原始的文档内容进行分析,并高亮显示有关的实体,辅助用户辨析信息。

ContexTour

ContexTour可视化文档集合所涉及的多个层面的内容和各个层面间的关系,以学术文章为例,即会议、作者和关键词这三个层面。在数据分析阶段,ContexTour从语义上分析了论文在每个文本信息层面上的内容聚类结果和各层面之间的聚类信息。在可视表达上,轮廓线可用于刻画论文的聚集情况,即颜色越深的区域代表相近的论文数量越多。布局在轮廓线上的文字也可揭示会议作者主题这三个层面各自的聚类内容。

FacetAtlas

FacetAtla结合了气泡集和节点-链接图两种视图,用于表达文本各层面信息内部和外部的关联。每个节点表示一个实体,用KDE方法刻画出气泡图的轮廓,然后用线将同一层面的实体链接起来,一种颜色代表一种实体。如图5-24是采用FacetAtlas方法,基于医疗健康文档,可视化医疗健康文档中关于“diabetes”的多层面信息,包括疾病名称、病因、症状、诊断方案等层面,两团分别代表糖尿病1号和2号,连线是指他俩之间的并发症。

 

5-24采用FacetAtlas方法可视化医疗健康文档中关于“diabetes”的多层面信息

包括疾病名称、病因、症状、诊断方案等层面。两个疾病聚类对应1号糖尿病和2号糖尿病。连接线将属于不同聚类的相同层面信息连接起来,红线连接1号和2号糖尿病中相似的并发症信息,绿线提示用户1号和2号糖尿病存在相似的症状信息。

5.3.5文本多层面信息的可视表达

多层面的文本可视化是为了从多个方面帮助用户理解文本的深层信息,揭示其内在特征,比如拥有时间属性的文本数据如何充分利用。近年来,新闻文本,微博文本,邮件文本等各种文本都包含了时间这一重要属性,时间对于文本特征的重要性显而易见,因此,不仅要解析出文本中的时间信息,还要结合时间信息充分理解文本的内容、文本的关系,使用户充分挖掘文本的深层信息。

网络安全分析中报文文本的可视分析中包含两个特别的属性,源ip地址和目的ip地址,因此,需要我们不能局限于文本,而是多层面的解析网络安全中的多样化的属性,分析出网络拓扑中存在的不安全性,从而给用户准确的网络安全可视分析。近年来,手机上的垃圾短信日益危害人们的生活,除了垃圾短信本身以外,垃圾短信的时间属性、发送垃圾短信的地理位置属性等,都增加了文本分析与可视化的难度,要求我们充分利用多层面的各维度属性理解文本。