ad

学习《Python网络爬虫 从入门到精通》_掌握爬虫的精髓_Python 与网络爬虫

网友投稿 111 2023-11-13

【摘要】 本书摘自《Python网络爬虫 从入门到精通》一书中第1章,第1节,吕云翔、张扬和韩延刚等编著。

第 1 章

Python 与网络爬虫

网络爬虫 (web crawler)有时候也叫网络蜘蛛 (web spider),它是指这样一类程序—— 它们可以自动连接到互联网站点,并读取网页中的内容或者存放在网络上的各种信息,并按 照某种策略对目标信息进行采集(如对某个网站的全部页面进行读取)。实际上,像 Google 、百度这样的搜索引擎就会通过爬虫程序来不断更新自身的网站内容和对其他网站的 网络索引。某种意义上说,用户每次通过搜索引擎查询一个关键词,就是在搜索引擎提供者 的爬虫程序所“爬”到的信息中进行查询。当然,搜索引擎背后所使用的技术十分复杂,其 爬虫技术通常也不是一般个人所开发的小型程序所能比拟的。不过,爬虫程序本身其实并不 复杂,只要懂一些编程知识,了解一些 HTTP 和 HTML, 就可以写出属于自己的爬虫程序, 实现很多有意思的功能。

在众多编程语言中,本书选择 Python 来编写爬虫程序。Python 不仅语法简洁、便于上 手,而且拥有庞大的开发者社区和浩如烟海的模块库,对于普通的程序编写而言非常便利。 虽然 Python 与 C/C++等语言相比可能在性能上有所欠缺,但毕竟瑕不掩瑜,开发人员普遍 认为它是目前编写网络爬虫程序的最好选择。

1.1 Python 语言

学习《Python网络爬虫 从入门到精通》_掌握爬虫的精髓_Python 与网络爬虫

Python 是目前最为流行的编程语言之一,本章首先对它的历史和发展做一些简单介绍, 然后再介绍 Python 的基本语法,对于没有 Python 编程经验的读者而言,可以借此对 Python 有一个初步的了解。

1.1.1 什 么 是 Python

Guido van Rossum在1989年开发了Python 语言,而 Python 的第一个公开发行版发行于 1991年。因为Guido 是一部电视剧《Monty Python's Flying Circus》的爱好者,因此将这种新 的脚本语言命名为Pythonc从最根本的角度来说, Python 是一种解释型、面向对象、动态数据类型的高级程序设计 语言。值得注意的是, Python 是开源的,源代码遵循GPL(GNU General Public License) 协 议,这就意味着它对所有个人开发者是完全开放的,这也使得 Python 在开发者中迅速流行 开来,来自全球各地的 Python 使用者为这门语言的发展贡献了很多力量。Python 的哲学是 优雅、明确和简单。著名的“Zen of Python”(Python 之禅) 这样说道:

优美胜于丑陋,

明了胜于晦涩,

简洁胜于复杂,

复杂胜于凌乱,

扁平胜于嵌套,

间隔胜于紧凑,

可读性很重要

即便假借特例的实用性之名,也不可违背这些规则,

不要包容所有错误,除非你确定需要这样做,

当存在多种可能,不要尝试去猜测,

而是尽量找一种,最好是唯一一种明显的解决方案,

虽然这并不容易,因为你不是 Python 之父。

做也许好过不做,但不假思索就动手还不如不做。

如果你无法向人描述你的方案,那肯定不是一个好方案;反之亦然。

命名空间是一种绝妙的理念,我们应当多加利用。

2000年Python2.0 版本发布, Python3.0 版本则于2008年发布,这一新版本不完全兼容 之前的 Python 源代码。目前开发者主要接触到的是 Python 2.7 与 Python 3.5, 以及更新一点 的 Python 3.6 。Python 3在 Python 2的基础上做出了不少很有价值的改进,3.5和3.6也已逐 步成为 Python 的主流版本,本书将完全使用 Python 3作为开发语言。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们 18664393530@aliyun.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:实战之路《Excel 数据处理与分析实战宝典_第2版》_4.9 PowerPivot 和数据透视表
下一篇:打开《Python 编程与应用实践》_成为Python大佬_1.3 Python 的应用
相关文章

 发表评论

暂时没有评论,来抢沙发吧~

×