ad

学习《Python网络爬虫 从入门到精通》_14.0 爬虫实践:拼多多用户评论数据爬虫

网友投稿 200 2023-11-13

【摘要】 本书摘自《Python网络爬虫 从入门到精通》一书中第14章,第1节,吕云翔、张扬和韩延刚等编著。

14.0 爬虫实践:拼多多用户评论数据爬虫

2018年10 月, 一篇标题为《估值175 亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》的文章在网络上成为热点。文章指出,某旅游平台存在大量点评数据造假、抄袭同行 的内容,并且“发现了7454个抄袭账号,平均每个人从携程、艺龙、美团、Agoda 、Yelp 上 抄袭搬运了数千条点评,合计抄袭572万条餐饮点评,1221 万条酒店点评”。这篇文章的作 者通过爬取该网站及其同类网站的评论数据,并对其进行对比分析,发现用户发帖的内容和 其他网站相似度较高,以及用户回复的时间行为像机器人,因此得出了该网站抄袭点评的结 论。抛开文章本身的目的,从中可以看到评论数据的巨大价值。

本章笔者将为大家演示抓取一个热门网站评论数据的案例,选取电商拼多多作为目标网 站,爬取拼多多商品的评论。

14.1 程序设计

本章案例的目的是爬取大量的商品以及商品的评论,所以在程序设计上要考虑到该爬虫 的高并发以及持久化存储。本章爬虫工具选用 Scrapy 框架,以满足爬虫的高并发请求任 务;持久化存储使用 MongoDB, 对直接存储JSON 数据比较方便。

学习《Python网络爬虫 从入门到精通》_14.0 爬虫实践:拼多多用户评论数据爬虫

14.1.1 分析网页

在调研拼多多的时候,笔者并没有发现网站有 PC 版,但是找到了触屏版。触屏版一般 是为了在适配手机浏览器而做的版本,在 PC 上运行触屏版时尽管样式不适配,但并不影响 浏览数据和抓包。触屏版网址是http://yangkeduo.com/。拿到网址后,先在 PC 浏览器中用调 试工具查看请求信息。通过查找线索,并不会发现该网站实际获取数据的请求,但是每次下 拉刷新页面时确实有数据更新,只是此时在浏览器调试工具中没有看到新请求的产生,这是 由于该请求是网页内的 AJAX 请求。此时可以通过分析网站 JavaScript 源代码的方式来找到 请求地址和参数规则,这是一种方法;而第二种方法就是下面将要介绍的,用专业的抓包工 具来分析网络请求。常用的抓包工具有 Fiddler 、Charles 、Wireshark等,这个案例分析网页请求的时候,用 到了常用的抓包工具 Charles, 通过它可以更清楚地看到网络请求的过程。

Charles 是常用的网络封包截取工具,在移动开发中用得比较多。为了调试与服务器端的 网络通信协议,经常需要截取网络封包来分析。Charles 通过将自己设置成系统的网络访问代 理服务器,使得所有的网络访问请求都通过它来完成,从而实现了网络封包的截取和分析。

除了在移动开发中调试端口外, Charles 也可以用于分析第三方应用的通信协议。配合 Charles 的 SSL 功 能 ,Charles 还可以用来分析 HTTPS 协议。

Charles 主要提供两种查看封包的视图,分别名为 “Structure” 和 “Sequence” 。Structure结构视图将网络请求按访问的域名分类,比如某个域名下有 n 个资源请求,那么所有此域名 下的请求都会在这里做一个详细的分类。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们 18664393530@aliyun.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:学习《Python网络爬虫 从入门到精通》_掌握爬虫的精髓_9.2 网站反爬虫
下一篇:实战之路《Excel 数据处理与分析实战宝典_第2版》_2.1 条件格式
相关文章

 发表评论

暂时没有评论,来抢沙发吧~

×