工厂数据可视化管理系统:提高生产效率和决策质量的关键
130
2023-10-25
【摘要】 本书摘自《大数据可视化技术》一书中第6章,第3节,杨尚森、许桂秋主编。
6.3 文本信息可视化
文本可视化可以分为文本内容的可视化、文本关系的可视化以及文本多特征信息的 可视化。文本内容可视化是对文本内的关键信息分析后的展示,文本关系的可视化既可 以对单个文本进行内部的关系展示,也可以对多个文本进行文本之间的关系展示。文本 多特征信息的可视化,是结合文本的多个特征进行全方位的可视化展示。
6.3.1 文本内容可视化
文本的内容可以通过关键词、短语、句子和主题进行展现。
1. 关键词可视化
一个词语若在一个文本中出现的频率较高,那么这个词语就可能是这个文本的关键 词,它可以一定程度上反映出一个文本内容所要表达的含义。
关键词可视化是用一个文本中的关键词来展示该文本的内容。
(1)标签云 (Tag Clould)。 标签云是一种最常见的、简单的关键词可视化方法, 它的步骤分为2步:
①统计出文本中词语的出现频率,提取出出现频率较高的关键词。
②按照一定的顺序和规律将这些关键词展示出来。比如说,用颜色的深浅,或者字 体的大小,来区分关键词的重要性。
如图6-3所示,将一个文本中的关键词提取出来,并用自定义的形状来呈现所有关 键词,其中频率越高的关键词,显示的颜色越深,字体越大,频率不高的关键词,显示 的颜色越浅,字体越小。
标签云可视化技术不断发展,其中Wordle技术对关键词的展示更加美观,在空间利 用和美学欣赏方面都有所提升。
(2)文档散 (DocuBurst)。 文档散是由多伦多大学的克里斯托弗 · 柯林斯
(Christopher Collins)教授研究出的一个在线文本分析和文档可视化工具,通过导入 TXT形式的文本数据,生成HTML 形式的可视化图片。
文档散使用词汇库中的结构关系来布局关键词,同时使用词语关系网中具有上下语 义关系的词语来布局关键词,从而揭示文本中的内容。上下语义关系是指词语之间往往 存在语义层级的关系,也就是说, 一些词语是某些词语的下义词,而一篇文章中,上下 语义关系的词语一般是同时存在的。
文档散的方法如下:
给一个单词作为中心点。中心点的词汇可以由用户指定,不同的中心点词汇呈现出 的可视化结果大不相同。
将整个文章内的词语视觉化在一个放射式层次圆环中,外层的词是内层词的下义 词。这样就可以一 目了然的展示文档根据中心词在词语关系网中是如何被呈现的。
2. 时 序 文 本 可 视 化
时序性的文本特性就是具有时间性和顺序性,比如,新闻会随着时间变化,小说会随着故事情节变化。
( 1 ) 主 题 河 流 (ThemeRiver)。 主题河流是由苏珊 · 阿弗尔 (SusanHavre) 等 学 者于2000年提出的一种时序数据可视化方法,主要用于反映文本主题强弱变化的过程。 经典的主题河流模型包括两个属性:
颜色,表示主题的类型, 一个主题用一个单一颜色的涌流表示。但是,颜色种类有 限,若使用一种颜色表示一个主题,会限制主题的数量,因此,可以使用一种颜色表示 一类主题。
宽度,表示主题的数量(或强度),涌流的状态随着主题的变化,可能扩展、收缩 或者保持不变。
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们 18664393530@aliyun.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~