学习《Python网络爬虫从入门到精通》_掌握爬虫的精髓

学习《Python网络爬虫从入门到精通》_掌握爬虫的精髓_6.1 Python 与文本分析

【摘要】本书摘自《Python网络爬虫从入门到精通》一书中第6章，第1节，吕云翔、张扬和韩延刚等编著。

6.1 Python 与文本分析

6.1.1 什么是文本分析

文本分析，也就是通过计算机对文本数据进行分析。其实这不是一个很新的话题，但是近年来随着 Python 在数据分析和自然语言处理领域的广泛应用，使用 Python 进行文本分析也变得十分热门。

【提示】结构化数据一般是指能够存储在数据库里，可以用二维逻辑表结构来表达的数据。与之相反，不适合通过数据库二维逻辑表来表现的数据就称为非结构化数据，包括所有格式的办公文档、文本、图片、XML 、HTML 、各类报表、图像和音频/视频信息等。这种数据的特征在于，其数据是多种信息的混合，通常无法直接知道其内部结构，只有经过识别及一定的存储分析后才能体现其价值。

由于文本数据是非结构化数据(或者半结构化数据),所以一般都需要对其进行某种预处理，这时可能遇到的问题包括：①数据量问题，这是任何数据预处理过程中都可能碰到的一个问题，由于现在人们在网络上进行文字信息交流十分广泛，文本数据规模往往也非常大；②在文本挖掘时，往往会将文本(词语等)转换为文本向量，但一般在数据处理后，向量都会面临维度过高和过于稀疏的问题，如果希望进行进一步的文本挖掘，可能需要一些特定的降维处理；③文本数据的特殊性，由于人类语言的复杂性，计算机目前对文本数据在逻辑和情感上的分析能力还很有限。近年来机器学习技术火热发展，但在语言处理方面的能力尚不如图像视觉方面的成就。

学习《Python网络爬虫从入门到精通》_掌握爬虫的精髓_6.1 Python 与文本分析

一般来说，文本分析(有时候也称为文本挖掘)的主要内容包括以下几个方面。

●语言处理。虽然一些文本数据分析会涉及较高级的统计方法，但是部分分析还是会更多地涉及自然语言处理过程，如分词、词性标注、句法分析等。

●模式识别。文本中可能会出现像电话号码、邮箱地址这样的有统一表示方式的实体，通过这些特殊的表示方式或者其他模式来识别这些实体的过程就是模式识别。

●文本聚类。即运用无监督机器学习手段归类文本，适用于海量文本数据的分析，在发现文本话题、筛选异常文本资料方面应用广泛。

●文本分类。即在给定分类体系下，根据文本特征构建有监督机器学习模型，达到识别文本类型或内容主旨的目的。

丰富的 Python 第三方库提供了一些文本分析的实用工具。这里要说的是，文本分析与字符串处理并不是一个含义，字符串处理更多的是指对一个字符串在形式上进行一些变换和更改，而文本分析则更多地强调对文本内容进行语义、逻辑上的分析和处理。在整个分析的过程中需要使用一些基本的概念和方法，在各种实现文本挖掘的工具中，一般都会有所体现，它们包括以下几项。

●分词。是指将由连续字符组成的句子或段落按照一定规则划分成独立词语的过程。在英文中，由于单词之间是以空格作为自然分界符的，因此可以直接使用空格 (Space) 符作为分词标记，而中文句子内部一般没有分界符，所以中文分词比英文要更为复杂。

Excel中怎样计算面积? Excel制作计算圆面积工具的教程-英雄云拓展知识分享

293 2023-11-13

学习《Python网络爬虫从入门到精通》_掌握爬虫的精髓_6.1 Python 与文本分析

CRM客户管理系统，如何助力企业管理客户线索，提升转化率？

Excel中怎样计算面积? Excel制作计算圆面积工具的教程-英雄云拓展知识分享

excel中怎样在窗体中绘制iPhone4模型?-英雄云拓展知识分享

最近发表

热评文章

CRM系统很重要吗？-企业客户关系管理中的重要性及其

WPS2012版本中为何看不到之前用的插件-英雄云拓

客户关系管理的核心是什么？-以客户为中心，提升企业竞

excel剪切、复制和粘贴操作，使它们不会破坏已设置

ChM格式文档处理利器：5款免费软件-英雄云拓展知识

WPS怎样制作文字打字机效果的动画?-英雄云拓展知识

热门标签

学习《Python网络爬虫 从入门到精通》_掌握爬虫的精髓_6.1 Python 与文本分析

最近发表

热评文章

热门标签

学习《Python网络爬虫从入门到精通》_掌握爬虫的精髓_6.1 Python 与文本分析