学习《Python网络爬虫从入门到精通》_掌握爬虫的精髓

学习《Python网络爬虫从入门到精通》_掌握爬虫的精髓_9.1 爬虫框架

【摘要】本书摘自《Python网络爬虫从入门到精通》一书中第9章，第1节，吕云翔、张扬和韩延刚等编著。

9.1 爬虫框架

9.1.1 Scrapy是什么

按照官方的说法， Scrapy 是一个“为了爬取网站数据，提取结构性数据而编写的 Python 应用框架，可以应用在包括数据挖掘、信息处理或存储历史数据等各种程序中”。Scrapy 最初是为了网页抓取而设计的，也可以应用在获取 API 所返回的数据或者通用的网络爬虫开发之中。用户可以根据自己的需求十分方便地使用 Scrapy 编写出自己的爬虫程序。爬虫程序的编写要从使用 Requests (或者 urllib) 访问 URL 开始编写，然后把网页解析、元素定位等功能一行一行写进去，再编写爬虫的循环抓取策略和数据处理机制等其他功能，这些流程做下来，工作量其实也是不小的。使用特定的框架可以帮助开发者更高效地定制爬虫程序。在各种 Python 爬虫框架中，Scrapy 因其合理的设计、简便的用法和十分广泛的资料等优点脱颖而出，成为比较流行的选择，本节将对它进行比较详细的介绍。当然，深入了解一个 Python 库相关知识最好的方式就是去查看它的官网或官方文档。 Scrapy 的官网是 https://scrapy.org/, 读者可以随时访问并查看最新消息。

作为可能是目前最流行的 Python 爬虫框架，掌握 Scrapy 爬虫编写是开发者在爬虫开发中迈出的重要一步。当然，Python 爬虫框架有很多，相关资料也比较庞杂。

从构件上看， Scrapy 这个爬虫框架主要由以下组件组成。

学习《Python网络爬虫从入门到精通》_掌握爬虫的精髓_9.1 爬虫框架

● 引擎 (Scrapy): 用来处理整个系统的数据流处理及触发事务，是框架的核心。

● 调度器 (Scheduler): 用来接收引擎发过来的请求，将请求放入队列中，并在引擎再次请求的时候返回。它决定下一个要抓取的网址，同时担负着网址去重这一重要工作。● 下载器 (Downloader): 用于下载网页内容，并将网页内容返回给爬虫。下载器的基础是 twisted———个 Python 网络引擎框架。

● 爬虫(Spiders):用于从特定的网页中提取自己需要的信息，即 Scrapy 中所谓的实体 (Item) 。也可以从中提取出链接，让Scrapy 继续抓取下一个页面。

● 管道(Pipeline): 负责处理爬虫从网页中抽取的实体，主要的功能是持久化信息、验证实体的有效性、清洗信息等。当页面被爬虫解析后，将被发送到管道，并经过特定的程序来处理数据。

●下载器中间件 (Downloader Middlewares):Scrapy 引擎和下载器之间的框架，主要用于处理 Scrapy 引擎与下载器之间的请求及响应。

●爬虫中间件 (Spider Middlewares):Scrapy 引擎和爬虫之间的框架，主要工作是处理爬虫的响应输入和请求输出。

●调度中间件 (Scheduler Middewares):Scrapy引擎和调度之间的中间件，主要负责处理从 Scrapy 引擎发送到调度的请求和响应。

Excel中怎样计算面积? Excel制作计算圆面积工具的教程-英雄云拓展知识分享

281 2023-11-13

学习《Python网络爬虫从入门到精通》_掌握爬虫的精髓_9.1 爬虫框架

CRM客户管理系统，如何助力企业管理客户线索，提升转化率？

Excel中怎样计算面积? Excel制作计算圆面积工具的教程-英雄云拓展知识分享

excel中怎样在窗体中绘制iPhone4模型?-英雄云拓展知识分享

最近发表

热评文章

CRM系统很重要吗？-企业客户关系管理中的重要性及其

WPS2012版本中为何看不到之前用的插件-英雄云拓

客户关系管理的核心是什么？-以客户为中心，提升企业竞

excel剪切、复制和粘贴操作，使它们不会破坏已设置

ChM格式文档处理利器：5款免费软件-英雄云拓展知识

WPS怎样制作文字打字机效果的动画?-英雄云拓展知识

热门标签

学习《Python网络爬虫 从入门到精通》_掌握爬虫的精髓_9.1 爬虫框架

最近发表

热评文章

热门标签

学习《Python网络爬虫从入门到精通》_掌握爬虫的精髓_9.1 爬虫框架