ad

学习《Python网络爬虫 从入门到精通》_掌握爬虫的精髓_12.1.1 代理分类

网友投稿 141 2023-11-13

【摘要】 本书摘自《Python网络爬虫 从入门到精通》一书中第12章,第1节,吕云翔、张扬和韩延刚等编著。

12.1.1 代理分类

代理分类时,既可以根据协议区分,也可以根据其匿名程度区分。

1. 根据协议区分

根据代理的协议,代理可以分为如下类别。

●FTP 代理服务器:主要用于访问 FTP 服务器, 一般有上传、下载以及缓存功能,端 口一般为21、2121等。

学习《Python网络爬虫 从入门到精通》_掌握爬虫的精髓_12.1.1 代理分类

●HTT P 代理服务器:主要用于访问网页, 一般有内容过滤和缓存功能,端口一般为 80、8080、3128等。

●SSL/T LS 代理:主要用于访问加密网站, 一般有 SSL 或 TLS 加密功能(最高支持 128位加密强度),端口一般为443。

● RTSP 代理:主要用于访问Real流媒体服务器, 一般有缓存功能,端口一般为554。

●Telnet 代理:主要用于 Telnet 远程控制(黑客入侵计算机时常用于隐藏身份),端口 一般为23。

●POP3/SMTP 代理:主要用于 POP3/SMTP 方式收发邮件, 一般有缓存功能,端口一

般为110或25。

● SOCKS 代理:只是单纯传递数据包,不关心具体协议和用法,所以速度快很多, 一 般有缓存功能,端口一般为1080。SOCKS 代理协议又分为 SOCKS4 和 SOCKS5, 前 者只支持 TCP, 而后者支持 TCP 和 UDP, 还支持各种身份验证机制、服务器端域名 解析等。简单来说, SOCK4 能做到的 SOCKS5 都可以做到,但 SOCKS5 能做到的 SOCK4 不一定能做到。

2. 根据匿名程度区分

根据代理的匿名程度,代理可以分为如下类别。

●高度匿名代理:会将数据包原封不动地转发,在服务器端看来就好像真的是一个普 通客户端在访问,而记录的IP 是代理服务器的IP。

●普通匿名代理:会在数据包上做一些改动,服务器端上有可能发现这是个代理服务 器,也有一定概率追查到客户端的真实 IP。 代理服务器通常会加入的 HTTP 头有 HTTP_VIA和 HTTP_X_FORWARDED_FOR。

●透明代理:不但改动了数据包,还会告诉服务器客户端的真实 IP。 这种代理除了能 用缓存技术提高浏览速度,能用内容过滤提高安全性之外,并无其他显著作用,最 常见的例子是内网中的硬件防火墙。

●间谍代理:指组织或个人创建的用于记录用户传输的数据,然后进行研究、监控等 目的的代理服务器。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们 18664393530@aliyun.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:打开《Python 可视化数据分析》_学会挖掘大数据的价值_5.1.2 绘图简述
下一篇:打开《Python 编程与应用实践》_成为Python大佬_6.3 继承
相关文章
×