学习《Python网络爬虫从入门到精通》_14.0 爬虫实践：拼多多用户评论数据爬虫-英雄云

学习《Python网络爬虫从入门到精通》_14.0 爬虫实践：拼多多用户评论数据爬虫

【摘要】本书摘自《Python网络爬虫从入门到精通》一书中第14章，第1节，吕云翔、张扬和韩延刚等编著。

14.0 爬虫实践：拼多多用户评论数据爬虫

2018年10 月，一篇标题为《估值175 亿的旅游独角兽，是一座僵尸和水军构成的鬼城?》的文章在网络上成为热点。文章指出，某旅游平台存在大量点评数据造假、抄袭同行的内容，并且“发现了7454个抄袭账号，平均每个人从携程、艺龙、美团、Agoda 、Yelp 上抄袭搬运了数千条点评，合计抄袭572万条餐饮点评，1221 万条酒店点评”。这篇文章的作者通过爬取该网站及其同类网站的评论数据，并对其进行对比分析，发现用户发帖的内容和其他网站相似度较高，以及用户回复的时间行为像机器人，因此得出了该网站抄袭点评的结论。抛开文章本身的目的，从中可以看到评论数据的巨大价值。

本章笔者将为大家演示抓取一个热门网站评论数据的案例，选取电商拼多多作为目标网站，爬取拼多多商品的评论。

14.1 程序设计

本章案例的目的是爬取大量的商品以及商品的评论，所以在程序设计上要考虑到该爬虫的高并发以及持久化存储。本章爬虫工具选用 Scrapy 框架，以满足爬虫的高并发请求任务；持久化存储使用 MongoDB, 对直接存储JSON 数据比较方便。

学习《Python网络爬虫从入门到精通》_14.0 爬虫实践：拼多多用户评论数据爬虫

14.1.1 分析网页

在调研拼多多的时候，笔者并没有发现网站有 PC 版，但是找到了触屏版。触屏版一般是为了在适配手机浏览器而做的版本，在 PC 上运行触屏版时尽管样式不适配，但并不影响浏览数据和抓包。触屏版网址是http://yangkeduo.com/。拿到网址后，先在 PC 浏览器中用调试工具查看请求信息。通过查找线索，并不会发现该网站实际获取数据的请求，但是每次下拉刷新页面时确实有数据更新，只是此时在浏览器调试工具中没有看到新请求的产生，这是由于该请求是网页内的 AJAX 请求。此时可以通过分析网站 JavaScript 源代码的方式来找到请求地址和参数规则，这是一种方法；而第二种方法就是下面将要介绍的，用专业的抓包工具来分析网络请求。常用的抓包工具有 Fiddler 、Charles 、Wireshark等，这个案例分析网页请求的时候，用到了常用的抓包工具 Charles, 通过它可以更清楚地看到网络请求的过程。

Charles 是常用的网络封包截取工具，在移动开发中用得比较多。为了调试与服务器端的网络通信协议，经常需要截取网络封包来分析。Charles 通过将自己设置成系统的网络访问代理服务器，使得所有的网络访问请求都通过它来完成，从而实现了网络封包的截取和分析。

除了在移动开发中调试端口外， Charles 也可以用于分析第三方应用的通信协议。配合 Charles 的 SSL 功能，Charles 还可以用来分析 HTTPS 协议。

Charles 主要提供两种查看封包的视图，分别名为 “Structure” 和 “Sequence” 。Structure结构视图将网络请求按访问的域名分类，比如某个域名下有 n 个资源请求，那么所有此域名下的请求都会在这里做一个详细的分类。

Excel中怎样计算面积? Excel制作计算圆面积工具的教程-英雄云拓展知识分享

355 2023-11-13

学习《Python网络爬虫从入门到精通》_14.0 爬虫实践：拼多多用户评论数据爬虫

CRM客户管理系统，如何助力企业管理客户线索，提升转化率？

Excel中怎样计算面积? Excel制作计算圆面积工具的教程-英雄云拓展知识分享

excel中怎样在窗体中绘制iPhone4模型?-英雄云拓展知识分享

最近发表

热评文章

CRM系统很重要吗？-企业客户关系管理中的重要性及其

WPS2012版本中为何看不到之前用的插件-英雄云拓

客户关系管理的核心是什么？-以客户为中心，提升企业竞

excel剪切、复制和粘贴操作，使它们不会破坏已设置

ChM格式文档处理利器：5款免费软件-英雄云拓展知识

WPS怎样制作文字打字机效果的动画?-英雄云拓展知识

热门标签

学习《Python网络爬虫 从入门到精通》_14.0 爬虫实践：拼多多用户评论数据爬虫

最近发表

热评文章

热门标签

学习《Python网络爬虫从入门到精通》_14.0 爬虫实践：拼多多用户评论数据爬虫