这个指南提供了一个关于HDFS Federation 特性和怎么配置管理一个联邦集群的概览。
Background
HDFS主要包括两层:
Namespace
- 由目录,文件和块组成
- 支持所有文件系统操作包括增加,删除,修改和列出文件和目录
Block Storage Service 有两个部分:
- Block管理(被NameNode包含)
- 提供datanode集群的注册和定期的心跳检查
- 处理block的报告并掌握block的位置
- 支持block的相关操作,如增删改查和得到block的位置
- 管理副本位置,管理副本的复制和删除
- 存储-由提供datanodes的本地系统提供存储,允许读写。
之前HDFS的架构只允许整个集群中存在一个namespace。一个独立的Namenode管理这个namespace。HDFS Federation通过加入多个Namenodes/namespaces到集群当中解决了之前架构的限制。
Multiple Namenodes/Namespaces
为了水平扩展name services,Federation使用多个独立的Namenodes/namespaces。这些NameNode之间结成联邦,即Namenodes是独立的,不需要互相协调。DataNode被所有的NameNode使用用来作为通用的数据块存储设备。每一个DataNode注册集群中所有的NameNode。Datanodes发送心跳和block报告并且处理NameNode发送的命令。
Users may use to create personalized namespace views, where ViewFs is analogous to client side mount tables in some Unix/Linux systems.
Block 池:
一个block池是一个隶属于一个namespace的所有block的集合。DataNode为所有的block池储存集群当中的block信息。block池被独立管理,互不影响。这个设计将允许为新的block产生Block ID并不会需要其他的namespace。一个NameNode出问题也不会影响datanode为集群中的其他NameNode服务。Namespace及其block池在一起叫做 Namespace Volume(Namespace 卷)。它是一个独立的单位管理。当一个Namenode/namespace被删除的时候,在datanodes中的对应的block池也会被删除。在集群升级时,一个namespace volume是一个升级单元。
ClusterID
一个新的标识ClusterID用来标示集群当中所有的节点。当一个Namenode被格式化,这个标识符或自动生成的。这个ID会被用来格式化集群中的其他Namenode。
关键的好处
- Namespace扩展性-HDFS集群存储可以水平扩展但是namespace不行。大型部署或者是小文件较多的系统可以通过向集群添加更多的NameNode获益。
- 性能-之前的架构中,文件系统的吞吐量受限于单一NameNode。添加更多的NameNode会提高读写的吞吐量
- 隔离 - 单一NameNode无法隔离多用户环境,实验的程序可能造成Namenode变慢,影响生产环境,多个Namenodes使得不同类别的应用程序和用户可以分离不同的名称空间。
Federation Configuration
Federation配置是向后兼容,允许现有的单一Namenode配置工作,不会有任何改变。新的配置被设计成集群当中的所有节点拥有着相同的配置并且并不需要为不同的机器设置不同的配置文件。
Federation中添加了一个新的抽象NameServiceID。Namenode以及对应的Secondary/backup/checkpointer节点都属于这个。支持单个配置文件,Namenode以及对应的econdary/backup/checkpointer配置参数通过NameServiceID后缀标示,并可以添加到同样的配置文件当中。
配置
第一步:添加下面的配置到你的配置文件当中:
dfs.nameservices: 配置与逗号分隔NameServiceIDs列表
这是为了Datanodes用来确定集群中的所有Namenodes。
第二步:为每一个Namenode以及Secondary/backup/checkpointer节点添加后缀为对应的NameServiceID的配置到通用配置文件:
Daemon | Configuration Parameter |
---|---|
Namenode | dfs.namenode.rpc-address dfs.namenode.servicerpc-address dfs.namenode.http-address dfs.namenode.https-address dfs.namenode.keytab.file .dirdfs.namenode.edits.dir dfs.namenode.checkpoint.dir dfs.namenode.checkpoint.edits.dir |
Secondary Namenode | dfs.namenode.secondary.http-address dfs.secondary.namenode.keytab.file |
BackupNode | dfs.namenode.backup.address dfs.secondary.namenode.keytab.file |
下面是一个两个namenode的简单配置例子:
dfs.nameservices ns1,ns2 dfs.namenode.rpc-address.ns1 nn-host1:rpc-port dfs.namenode.http-address.ns1 nn-host1:http-port dfs.namenode.secondaryhttp-address.ns1 snn-host1:http-port dfs.namenode.rpc-address.ns2 nn-host2:rpc-port dfs.namenode.http-address.ns2 nn-host2:http-port .... Other common configuration ... dfs.namenode.secondaryhttp-address.ns2 snn-host2:http-port
格式化NameNode
第一步:格式化namenode,命令如下:
> $HADOOP_PREFIX_HOME/bin/hdfs namenode -format [-clusterId |
选择一个不同的cluster_id,保证不会和其他的集群冲突,如果不提供的话,他会自动生成一个不同的ClusterID
第二步: 格式化添加的namenode,可以用下面的命令:
> $HADOOP_PREFIX_HOME/bin/hdfs namenode -format -clusterId |
注意:第二步使用的cluster_id不行要和第一步相同,如果不相同的话,添加的Namenode将不会在联邦集群中起作用
从老版本升级之后并且配置联邦
早期的版本只能支持单一的Namenode,下面的步骤可以是联邦可用:
第一步:升级集群。在升级过程中你一个提供一个ClusterID:
> $HADOOP_PREFIX_HOME/bin/hdfs start namenode --config $HADOOP_CONF_DIR -upgrade -clusterId |
如果不提供那么会自动生成。
添加一个新的NameNode到一个既存的HDFS集群
按照以下步骤:
- 添加配置参数dfs.nameservices到配置文件
- 使用NameServiceID 作为后缀更新配置文件。配置的key名字已经和0.20不一致了,必须使用新的配置参数名
- 添加新的NameNode相关配置到配置文件当中
- 将配置文件同步到集群当中的所有节点
- 启动新的Namenode, Secondary/Backup节点
- 刷新datanode获取新添加的namenode,使用下列命令:
> $HADOOP_PREFIX_HOME/bin/hdfs dfadmin -refreshNameNode |
在集群中所有的datanodes运行上面的命令
Managing the cluster
Starting and stopping cluster
启动:
> $HADOOP_PREFIX_HOME/bin/start-dfs.sh |
停止:
> $HADOOP_PREFIX_HOME/bin/stop-dfs.sh |
这些命令可以在在HDFS运行的任何节点运行。命令将确定namenode并且启动这些namenode。datanode是通过slaves文件指定的。脚本可以作为参考来构建自己启动和停止集群的脚本。
Balancer
Balancer 已经被用来改变集群中多个NameNode的的平衡。可以运行下面的命令:
> "$HADOOP_PREFIX"/bin/hadoop-daemon.sh --config $HADOOP_CONF_DIR --script "$bin"/hdfs start balancer [-policy |
Policy:
-
datanode -默认的策略。这个会平衡datanode的存储,和先前的版本类似。
- blockpool - 针对block 池平衡。平衡block池存储也会平衡datanode。
注意Balande只平衡数据和不平namespace。
Decommissioning
退役和先前的版本类似。退役的节点需要被添加到在所有Namenode的exclude文件中。每一个Namenode退役它对应的block 池当所有的Namenode完成了datanode的退役,那么这个datanode就可以退役了
第一步:分发一个exclude文件到所有的NameNode,如下:
> "$HADOOP_PREFIX"/bin/distributed-exclude.sh |
第二步:刷新所有NameNode使用新的exclude文件
> "$HADOOP_PREFIX"/bin/refresh-namenodes.sh |
上面的命令将使用HDFS配置文件确定集群的Namenode,使用新的exclude文件刷新所有的Namenode。
Cluster Web Console
和NameNode的web页面类似,集群的web cosole用来监视集群 http://<any_nn_host:port>/dfsclusterhealth.jsp。任何集群中的NameNode都可以进入这个页面
页面提供了:
- 集群的综述,包括文件的数目,block的数目总存储容量可用和空闲的空间等
- 提供namenode的列表和每个namenode的files,blocks,missing blocks,number of live and dead data nodes数量。同事提供一个连接去每一个Namenode 的web页面
- 退役datanode的状态