Excel中怎样计算面积? Excel制作计算圆面积工具的教程-英雄云拓展知识分享
120
2023-11-13
【摘要】 本书摘自《Python网络爬虫 从入门到精通》一书中第1章,第5节,吕云翔、张扬和韩延刚等编著。
1.5.2 对爬虫的思考
通过刚才这个十分简单的爬虫示例不难发现,爬虫的核心任务就是访问某个站点(一般 为一个 URL 地址),然后提取其中的特定信息,最后对数据进行处理(在这个例子中只是简 单的输出)。当然,根据具体的应用场景,爬虫可能还需要很多其他的功能,比如自动抓取 多个页面、处理表单、对数据进行存储或者清洗等。
其实,如果只想获取特定网站所提供的关键数据,而每个网站都提供了自己的 API (Application Programming Interface,应用程序接口),那么人们对于网络爬虫的需求可能就没 有那么大了。毕竟,如果网站已经为其用户准备好了特定格式的数据,只需要访问API 就能 够得到所需的信息,那么又有谁愿意费时费力地编写复杂的信息抽取程序呢?现实是,虽然 有很多网站都提供了可供普通用户使用的 API, 但其中的数据有时不全面或不显明。另外, API 毕竟是官方定义的,免费的格式化数据不一定能够满足人们的需求。掌握一些网络爬虫 编写方法,不仅能够做出只属于自己的功能,还能在某种程度上拥有一个高度个性化的“浏 览器”,因此,学习爬虫相关知识还是很有必要的。
对于个人编写的爬虫而言, 一般不会存在法律和道德问题。但随着与互联网知识产权相 关法律法规的逐渐完善,读者在使用自己的爬虫时,还是需要特别注意遵守网站的规定以及 公序良俗的。2013 年曾有这样的报道:百度起诉奇虎360 违反 “Robots 协议”抓取、复制 其网站内容,并索赔1亿元人民币°。百度认为360公司违反 Robots 协议抓取百度知道、百 度百科等数据,而法院表示,尊重 Robots 协议和平台对 UGC(User Generated Content, 用 户原创内容)数据的权益,360也因此被判赔偿百度70万元。2014年8 月微博宣布停止脉 脉使用的微博开放平台所有接口,理由是“脉脉通过恶意抓取行为获得并使用了未经微博用 户授权的档案数据,违反微博开放平台的开发者协议”。最新出台的《网络安全法》也对企 业使用爬虫技术来获取网络上及用户的特定信息这一行为做出了一些规定◎。可以说,爬虫 程序方兴未艾,随着互联网业界的发展,对于爬虫程序的秩序也提出了新的要求。对于普通 个人开发者而言, 一般需要注意以下几个方面。
●不应访问和抓取某些充满不良信息的网站,包括一些充斥暴力、色情或反动信息的 网站。
●始终注意版权意识。如果要爬取的信息是其他作者的原创内容,未经作者或版权所 有者的授权,请不要将这些信息用作其他用途,尤其是商业方面的行为。
●保持对网站的善意。如果没有经过网站运营者的同意,使得爬虫程序对目标网站的 性能产生了一定影响,恶意造成了服务器资源的大量浪费,那么且不说法律层面, 至少这是不道德的。编写爬虫的出发点应该是作为一个爬虫技术的爱好者,而不是 一个试图攻击网站的黑客。尤其是分布式大规模爬虫,更需要注意这点9。
●请遵循 robots.txt 和网站服务协议。robots 文件只是一个“君子协议”,并没有强制 性约束爬虫程序的能力,只是表达了“请不要抓取本网站的这些信息”的意向。在 实际的爬虫编写过程中,开发者应该尽可能遵循 robots.txt 的内容,尤其是编写的 爬虫无节制地抓取网站内容时。有必要的话,应该查询并牢记网站服务协议中的相 关说明。
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们 18664393530@aliyun.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~