学习《Python网络爬虫从入门到精通》_掌握爬虫的精髓

学习《Python网络爬虫从入门到精通》_掌握爬虫的精髓_1.5.2 对爬虫的思考

【摘要】本书摘自《Python网络爬虫从入门到精通》一书中第1章，第5节，吕云翔、张扬和韩延刚等编著。

1.5.2 对爬虫的思考

学习《Python网络爬虫从入门到精通》_掌握爬虫的精髓_1.5.2 对爬虫的思考

通过刚才这个十分简单的爬虫示例不难发现，爬虫的核心任务就是访问某个站点(一般为一个 URL 地址),然后提取其中的特定信息，最后对数据进行处理(在这个例子中只是简单的输出)。当然，根据具体的应用场景，爬虫可能还需要很多其他的功能，比如自动抓取多个页面、处理表单、对数据进行存储或者清洗等。

其实，如果只想获取特定网站所提供的关键数据，而每个网站都提供了自己的 API (Application Programming Interface,应用程序接口),那么人们对于网络爬虫的需求可能就没有那么大了。毕竟，如果网站已经为其用户准备好了特定格式的数据，只需要访问API 就能够得到所需的信息，那么又有谁愿意费时费力地编写复杂的信息抽取程序呢?现实是，虽然有很多网站都提供了可供普通用户使用的 API, 但其中的数据有时不全面或不显明。另外， API 毕竟是官方定义的，免费的格式化数据不一定能够满足人们的需求。掌握一些网络爬虫编写方法，不仅能够做出只属于自己的功能，还能在某种程度上拥有一个高度个性化的“浏览器”,因此，学习爬虫相关知识还是很有必要的。

对于个人编写的爬虫而言，一般不会存在法律和道德问题。但随着与互联网知识产权相关法律法规的逐渐完善，读者在使用自己的爬虫时，还是需要特别注意遵守网站的规定以及公序良俗的。2013 年曾有这样的报道：百度起诉奇虎360 违反 “Robots 协议”抓取、复制其网站内容，并索赔1亿元人民币°。百度认为360公司违反 Robots 协议抓取百度知道、百度百科等数据，而法院表示，尊重 Robots 协议和平台对 UGC(User Generated Content, 用户原创内容)数据的权益，360也因此被判赔偿百度70万元。2014年8 月微博宣布停止脉脉使用的微博开放平台所有接口，理由是“脉脉通过恶意抓取行为获得并使用了未经微博用户授权的档案数据，违反微博开放平台的开发者协议”。最新出台的《网络安全法》也对企业使用爬虫技术来获取网络上及用户的特定信息这一行为做出了一些规定◎。可以说，爬虫程序方兴未艾，随着互联网业界的发展，对于爬虫程序的秩序也提出了新的要求。对于普通个人开发者而言，一般需要注意以下几个方面。

●不应访问和抓取某些充满不良信息的网站，包括一些充斥暴力、色情或反动信息的网站。

●保持对网站的善意。如果没有经过网站运营者的同意，使得爬虫程序对目标网站的性能产生了一定影响，恶意造成了服务器资源的大量浪费，那么且不说法律层面，至少这是不道德的。编写爬虫的出发点应该是作为一个爬虫技术的爱好者，而不是一个试图攻击网站的黑客。尤其是分布式大规模爬虫，更需要注意这点9。

●请遵循 robots.txt 和网站服务协议。robots 文件只是一个“君子协议”,并没有强制性约束爬虫程序的能力，只是表达了“请不要抓取本网站的这些信息”的意向。在实际的爬虫编写过程中，开发者应该尽可能遵循 robots.txt 的内容，尤其是编写的爬虫无节制地抓取网站内容时。有必要的话，应该查询并牢记网站服务协议中的相关说明。

Excel中怎样计算面积? Excel制作计算圆面积工具的教程-英雄云拓展知识分享

182 2023-11-13

学习《Python网络爬虫从入门到精通》_掌握爬虫的精髓_1.5.2 对爬虫的思考

Excel中怎样计算面积? Excel制作计算圆面积工具的教程-英雄云拓展知识分享

excel中怎样在窗体中绘制iPhone4模型?-英雄云拓展知识分享

excel vba编程在窗体上画一个8边形-英雄云拓展知识分享

最近发表

热评文章

CRM系统很重要吗？-企业客户关系管理中的重要性及其

WPS2012版本中为何看不到之前用的插件-英雄云拓

客户关系管理的核心是什么？-以客户为中心，提升企业竞

excel剪切、复制和粘贴操作，使它们不会破坏已设置

ChM格式文档处理利器：5款免费软件-英雄云拓展知识

WPS怎样制作文字打字机效果的动画?-英雄云拓展知识

热门标签

学习《Python网络爬虫 从入门到精通》_掌握爬虫的精髓_1.5.2 对爬虫的思考

最近发表

热评文章

热门标签

学习《Python网络爬虫从入门到精通》_掌握爬虫的精髓_1.5.2 对爬虫的思考