ad

打开《OpenStack 云平台-部署与高可用实战》_3.HDFS 体系结构

网友投稿 112 2023-11-13

【摘要】 本书摘自《OpenStack 云平台-部署与高可用实战》一书中第3节,肖睿 雷宇飞主编。

3.HDFS 体系结构

大数据的特点是体积大、类型多、价值密度低、产生和处理速度快。仅仅依靠一台 物理计算机很难对大数据进行分析处理,所以有必要将这些数据集进行分区并存储到若 干台单独的计算机上,通过网络连接多个计算机节点,并通过指定的服务器对网络中的 文件系统进行集中管理,由此便构成了分布式文件系统。HDFS 便是分布式文件系统中 的代表, HDFS 的优势包含如下。

● 可以存储超大文件,如MB 、TB 、PB 量级。

● 对数据采用“一次写入,多次读取”的思路,以此来加快整个数据集的访问 速度。

● 对硬件的要求相对较低。

HDFS 也存在缺点,包含如下。

打开《OpenStack 云平台-部署与高可用实战》_3.HDFS 体系结构

● HDFS 可以处理大量数据,具有高吞吐量等特点,但以提高时间延迟为代价。 HDFS 不适合低延迟数据访问场景,如几十毫秒范围,但是通过 HBase 可以解决延迟 问题。

● 存储大量小文件的成本过高。HDFS 被设计用于在大数据环境中对数据进行分析 处理,但处理大量小文件,会使得NameNode 存储的整个文件系统的目录树及索引目录 变大。

● HDFS 基于流式访问,同一时间只支持一个用户写入,且写操作只能在文件末尾 完成,不适合并发写入。

HDFS 的体系结构如图6.2所示。

(1)基本概念

① 数据块 (Block)

图6.2 中的标记数字的方框代表 HDFS 中的数据块。HDFS 将文件分成数据块进 行存储,数据块是文件存储的最小逻辑单元,默认块大小为64MB。 使用数据块的好 处如下。

● 同一个文件分解的数据块不需要存储在同一个磁盘中。通过将数据块存储在多 个节点上可以提高文件的访问速度。

● 简化存储管理。对于HDFS 来说,数据块大小相对固定,计算存储资源时较容易。

● 提高可用性。通过将每个数据块根据设置分别部署在多台计算机中,确保在某

一节点发生故障时数据不丢失。

② NameNode

NameNode 负责管理文件系统的命名空间,存储元数据,在群集中属于管理者角色。 它负责维护文件系统树内的所有文件和目录索引,记录每个文件的存放位置和副本信息。 当客户端发起对文件的访问请求时,由 NameNode 负责定位文件。NameNode 的元数据 存放在 hadoop/dfs/name/curent 目 录 ( 由hdfs-site.xml 中 的 dfs.namenode.name.dir 属性指 定)下,如图6.3所示。该目录下除了元数据外,还包括 “VERSION” 和 “seen_txid”

两个文件。其具体作用如下。

● VERSION: 保存版本信息,存储了当前文件系统的唯一标识符。

· seen_txid: 用于事务管理。通过记录 edits_*文件的尾数,当 NameNode 重新启 动时,系统会根据 edits_0000001 到 seen_txid 数字之间的事务日志恢复数据;当故障发 生时,需确保 seen txid 文件中的数据是当前edits 文件的最后尾数。

③ DataNode

DataNode 承担实际的存储任务,负责物理节点的存储管理,包括存储并检索数据块、 定期向NameNode 发送所存储的块的列表等,属于工作者角色。DataNode 以块为单位存 储数据,并根据配置复制每个块的多个副本。DataNode 的数据存储目录为/home/hduser/ hadoop/dfs/data( 由hdfs-site.xml中的 dfs.datanode.data.dir属性指定),如“/home/hduser/ hadoop/dfs/data/current/BP-367303913- 192.168.70.130-1463549699942/current/finalized/sub dirO/subdir0”, 该目录的文件内容如图6.4所示。主要包括两类文件。

● blk_:HDFS 的数据块,保存二进制数据。·blk_.meta: 数据块的属性信息,包括版本信息、类型信息等。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们 18664393530@aliyun.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:实战之路《Excel 数据处理与分析实战宝典_第2版》_2.1 条件格式
下一篇:学习《Python网络爬虫 从入门到精通》_掌握爬虫的精髓_4.1.2 AJAX
相关文章

 发表评论

暂时没有评论,来抢沙发吧~

×