Excel中怎样计算面积? Excel制作计算圆面积工具的教程-英雄云拓展知识分享
125
2023-11-13
【摘要】 本书摘自《Python网络爬虫 从入门到精通》一书中第9章,第1节,吕云翔、张扬和韩延刚等编著。
9.1 爬虫框架
9.1.1 Scrapy是什么
按照官方的说法, Scrapy 是一个“为了爬取网站数据,提取结构性数据而编写的 Python 应用框架,可以应用在包括数据挖掘、信息处理或存储历史数据等各种程序中”。Scrapy 最 初是为了网页抓取而设计的,也可以应用在获取 API 所返回的数据或者通用的网络爬虫开发 之中。用户可以根据自己的需求十分方便地使用 Scrapy 编写出自己的爬虫程序。爬虫程序 的编写要从使用 Requests (或者 urllib) 访问 URL 开始编写,然后把网页解析、元素定位等 功能一行一行写进去,再编写爬虫的循环抓取策略和数据处理机制等其他功能,这些流程做 下来,工作量其实也是不小的。使用特定的框架可以帮助开发者更高效地定制爬虫程序。在 各种 Python 爬虫框架中,Scrapy 因其合理的设计、简便的用法和十分广泛的资料等优点脱 颖而出,成为比较流行的选择,本节将对它进行比较详细的介绍。当然,深入了解一个 Python 库相关知识最好的方式就是去查看它的官网或官方文档。 Scrapy 的 官 网 是 https://scrapy.org/, 读者可以随时访问并查看最新消息。
作为可能是目前最流行的 Python 爬虫框架,掌握 Scrapy 爬虫编写是开发者在爬虫开发 中迈出的重要一步。当然,Python 爬虫框架有很多,相关资料也比较庞杂。
从构件上看, Scrapy 这个爬虫框架主要由以下组件组成。
● 引擎 (Scrapy): 用来处理整个系统的数据流处理及触发事务,是框架的核心。
● 调度器 (Scheduler): 用来接收引擎发过来的请求,将请求放入队列中,并在引擎再次 请求的时候返回。它决定下一个要抓取的网址,同时担负着网址去重这一重要工作。● 下载器 (Downloader): 用于下载网页内容,并将网页内容返回给爬虫。下载器的基 础是 twisted———个 Python 网络引擎框架。
● 爬虫(Spiders):用于从特定的网页中提取自己需要的信息,即 Scrapy 中所谓的实体 (Item) 。也可以从中提取出链接,让Scrapy 继续抓取下一个页面。
● 管道(Pipeline): 负责处理爬虫从网页中抽取的实体,主要的功能是持久化信息、验 证实体的有效性、清洗信息等。当页面被爬虫解析后,将被发送到管道,并经过特 定的程序来处理数据。
●下载器中间件 (Downloader Middlewares):Scrapy 引擎和下载器之间的框架,主要用 于处理 Scrapy 引擎与下载器之间的请求及响应。
●爬虫中间件 (Spider Middlewares):Scrapy 引擎和爬虫之间的框架,主要工作是处理 爬虫的响应输入和请求输出。
●调度中间件 (Scheduler Middewares):Scrapy引擎和调度之间的中间件,主要负责处 理从 Scrapy 引擎发送到调度的请求和响应。
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们 18664393530@aliyun.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~