HDFS是一个文件系统,用于存储文件,通过统一的命名空间–目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。
HDFS设计思想:分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析。
在大数据系统中作用:为各类分布式运算框架(如:mapreduce,spark,tez,….)提供数据存储服务。
重点概念:文件切块,副本存放,元数据。
HDFS重要特性:
HDFS是设计成适应一次写入,多次读出的场景,且不支持文件的修改(注:适合用来做数据分析,并不适合用来做网盘应用,因为,不便修改,延迟大,网络开销大,成本太高)。
HDFS原理篇
工作机制:
工作机制的学习主要是为加深对分布式系统的理解,以及增强遇到各种问题时的分析解决能力,形成一定的集群运维能力。注:很多不是真正理解hadoop技术体系的人会常常觉得HDFS可用于网盘类应用,但实际并非如此。要想将技术准确用在恰当的地方,必须对技术有深刻的理解。
1 概述
2 HDFS写数据流程
客户端要向HDFS写数据,首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode,然后客户端按顺序将文件逐个block传递给相应datanode,并由接收到block的datanode负责向其他datanode复制block的副本。
这里说明文件的切割是在客户端实现的,而不是NameNode。文件的传输也是由客户端传到指定datanode上,副本由datanode传给其他datanode。
详细步骤(重要):
3. HDFS读数据流程
客户端将要读取的文件路径发给namenode,namenode获取文件的元信息(主要是block的存放位置信息)返回给客户端,客户端根据返回的信息找到相应datanode逐个获取文件的block并在客户端进行数据追加合并从而获得整个文件。
详细步骤解析:
跟namenode通信查询元数据,找到文件块所在的datanoede服务器挑选一台datanode(就近原则,然后随机)服务器,请求建立socket流datanode开始发送数据(从磁盘里面读取数据放入流,以packet为单位来做校验)客户端以packet为单位接收,先在本地缓存,然后写入目标文件。
NAMENODE工作机制
学习目标:理解namenode的工作机制尤其是元数据管理机制,以增强对HDFS工作原理的理解,及培养hadoop集群运营中”性能调优”、”namenode”故障问题的分析解决能力
职责:
NAMENODE职责:
负责客户端请求的响应
元数据的管理(查询、修改)
元数据管理:
namenode对数据的管理采用了三种存储形式:
内存元数据(NameSystem)
磁盘元数据镜像文件(fsimage)
数据操作日志文件(edits.xml)可通过日志运算出元数据
元数据存储机制(重要):
A、内存中有一份完整的元数据(内存meta data)
B、磁盘有一个”准完整”的元数据镜像(fsimage)文件(在namenode的工作目录中)
C、用于衔接内存metadata和持久化元数据镜像fsimage之间的操作日志(edits文件)
注:当客户端对hdfs中的文件进行新增或者修改操作,操作记录首先被记入edits日志文件中,当客户端操作完成后,相应的元数据会更新到内存meta.data中。
元数据手动查看
可通过hdfs的一个工具来查看edits中的信息hdfs oev -i edits -o edits.xmlhdfs oiv -i fsimage_0000000087 -p XML -o fsimage.xml
inputfile: 要查看的fsimage文件
outputfile:
用于保存格式化之后的文件 process: 使用什么进程解码,XML|Web|…
Datanode工作职责:
存储管理用户的文件块数据
定期向namenode汇报自身所持有的block信息(通过心跳信息上报)
(这点很重要,因为当集群发生某些block副本失效时,集群如何恢复block初始副本数量的