ad

学习《Python网络爬虫 从入门到精通》_掌握爬虫的精髓_1.6.4 使用开发者工具检查网页

网友投稿 119 2023-11-13

【摘要】 本书摘自《Python网络爬虫 从入门到精通》一书中第1章,第6节,吕云翔、张扬和韩延刚等编著。

1.6.4 使用开发者工具检查网页

如果想要编写 一个爬取网页内容的爬虫程序,在动手编写之前,最重要的准备工作可能 就是检查目标网页了。用户打开浏览器后 一般会先输入 一个 URL 地址并打开这个网页,接 着浏览器就会将 HTML 渲染出美观的界面效果。如果使用目标只是浏览或者单击网页中的 某些内容,正如 一个普通的网站用户那样,那么做到这里就足够了。但是,对于爬虫编写者 而言,还需要更好地研究 一 下手头的工具 — — 浏览器。这里建议读者使用 Google Chrome 或 Firefox 浏览器,这不仅是因为它们合起来瓜分了较大份额的浏览器市场,流行程度毋庸置疑0, 更是因为它们都为开发者提供了强大的功能,是爬虫编写时的不二之选。

下面以 Chrome 为例,看看如何使用开发者工具。可以选择“菜单”中的“更多工具” → “开发者工具”,也可以直接在网页内容中右击并选择“检查”选项。效果如图1 - 23 所示。

Chrome 的开发者模式为用户提供了下面几组工具。

学习《Python网络爬虫 从入门到精通》_掌握爬虫的精髓_1.6.4 使用开发者工具检查网页

● Elements: 允许用户从浏览器的角度来观察网页,用户可以借此看到 Chrome 渲染页

面所需要的 HTML 、CSS 和 DOM(Document Object Model) 对象。

● Network: 可以看到页面向服务器请求了哪些资源、资源的大小以及加载资源的相关 信息。此外,还可以查看 HTTP 的请求头、返回内容等。

● Sources: 即源代码面板,主要用来调试 JavaScript。

● Console: 即控制台面板,可以显示各种警告与错误信息。在开发期间,可以使用控 制台面板记录诊断信息,或者使用它作为 shell 在页面上与 JavaScript 交互。

● Performance: 使用这个模块可以记录和查看网站生命周期内发生的各种事件来提高页面运行时的性能。

●Memory: 这个面板可以提供比 Performance 更多的信息,如跟踪内存泄漏。

● Application: 检查加载的所有资源。

● Security: 即安全面板,可以用来处理证书问题等。

另外,通过切换设备模式可以观察网页在不同设备上的显示效果在 “Element” 面板中,开发者可以检查和编辑页面的 HTML 与 CSS 。选中并双击元素 就可以编辑元素了,比如将百度贴吧 (tieba.baidu.com) 首页导航栏中的部分文字去掉,并 将部分文字变为红色

值得一提的是上面快捷菜单中的 “Copy XPath” 选项。由于XPath 是解析网页的利器, 因此 Chrome 中的这个功能对于爬虫程序编写而言就显得十分实用和方便了。

使用 “Network” 工具可以清楚地查看网页加载网络资源的过程和相关信息。请求的每 个资源在 “Network” 表格中显示为一行,对于某个特定的网络请求,可以进一步查看请求 头、响应头及已经返回的内容等信息。对于需要填写并发送表单的网页而言(比如执行用户 登录操作),在 “Network” 面板中勾选 “Preserve log” 复选框,然后进行登录,就可以记录 HTTP POST 信息,查看发送的表单信息详情。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们 18664393530@aliyun.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:学习《Python网络爬虫 从入门到精通》_掌握爬虫的精髓_5.4 验证码
下一篇:实战之路《Excel 数据处理与分析实战宝典_第2版》_1.6 创建、关闭输入超链接
相关文章

 发表评论

暂时没有评论,来抢沙发吧~

×