ad

学习《Python网络爬虫 从入门到精通》_掌握爬虫的精髓_1.4.2 HTML

网友投稿 104 2023-11-13

【摘要】 本书摘自《Python网络爬虫 从入门到精通》一书中第1章,第4节,吕云翔、张扬和韩延刚等编著。

1.4.2 HTML

HTML 即超文本标记语言 (HyperText Markup Language), 它是一种用于创建网页的标 准标记语言。与 HTTP 不同的是, HTML 是一种基础技术,常与 CSS 、JavaScript 一起被用 于设计令人赏心悦目的网页,以及网页应用程序和移动应用程序的用户界面。网页浏览器可 以读取 HTML 文件并将其渲染成可视化网页。HTML 描述了一个网站的结构语义随着线索 的呈现方式,使之成为一种标记语言而非编程语言。HTML 元素是构建网站的基石。HTML 允许嵌入图像与对象,并且可以用于创建交互式表单。它被用来结构化信息——例如标题、 段落和列表等,也可用来在一定程度上描述文档的外观和语义。HTML 的语言形式为尖括号 包围的 HTML 元素(如), 浏览器使用HTML 标签和脚本来诠释网页内容,但不会将 它们显示在页面上。HTML 可以嵌入如 JavaScript 的脚本语言,它们会影响 HTML 网页的行 为。网页浏览器也可以引用层叠样式表 (CSS) 来定义文本和其他元素的外观与布局。维护 HTML 和 CSS 标准的组织万维网联盟 (W3C) 鼓励人们使用 CSS 替代一些用于表现的 HTML 元素。HTML 文档由嵌套的 HTML 元素构成。它们用 HTML 标签表示,包含于尖括号中,如

在一般情况下, 一个元素由一对标签表示:“开始标签”

与“结束标签”

。 元素 如果含有文本内容,就被放置在这些标签之间。在开始与结束标签之间也可以封装另外的标 签,包括标签与文本的混合。这些嵌套元素是父元素的子元素。开始标签也可包含标签属 性。这些属性有诸如标识文档区段、将样式信息绑定到文档演示和为一些标签(如) 嵌入图像、引用图像来源等作用。 一些元素(如换行符
) 不允许嵌入任何内容,无论是 文字或其他标签。这些元素只需一个单一的空标签(类似于一个开始标签),而没有结束标 签。许多标签是可选的,尤其是那些很常用的段落元素

的闭合端标签。HTML 浏览器或 其他媒介可以从上下文识别出元素的闭合端以及由 HTML 标准所定义的结构规则,这些规 则非常复杂。

因此, 一个 HTML 元素的一般形式为:<标签 属性1="值1" 属性2="值2">内容。 一个 HTML 元素的名称即为标签使用的名称。注意,结束标签的名称前面有一个斜杠 “/”,空元素不需要也不允许有结束标签。如果元素属性未标明,则使用其默认值。

学习《Python网络爬虫 从入门到精通》_掌握爬虫的精髓_1.4.2 HTML

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们 18664393530@aliyun.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:打开《OpenStack 云平台-部署与高可用实战》_7.2.3 MapReduce与 HBase
下一篇:打开《Python 编程与应用实践》_成为Python大佬_6.1 什么是对象
相关文章

 发表评论

暂时没有评论,来抢沙发吧~