HDFS免重启挂载新磁盘的方法(hdfs,开发技术)

时间:2024-03-29 18:31:38 作者 : 石家庄SEO 分类 : 开发技术
  • TAG :

    HDFS%E5%85%8D%E9%87%8D%E5%90%AF%E6%8C%82%E8%BD%BD%E6%96%B0%E7%A3%81%E7%9B%98%E7%9A%84%E6%96%B9%E6%B3%95

在生产环境中,集群节点磁盘大小不同,其使用率也会不同,HDFS虽有均衡策略,但也会有数据不平衡的情况,有些节点磁盘就会被打满,然后这个节点就不健康了(Unhealthy Nodes),Yarn的磁盘阈值检查(yarn.nodemanager.disk-health-checker.min-healthy-disks),默认是90%,超过这个值就会不健康,集群有个节点不健康,就会导致任务运行缓慢,之后任务再挤压,Yarn资源被集中占用,最终影响上层服务。

磁盘空间不足,待扩容,可动态增删磁盘

yarn资源不足,待优化,可动态调整

官方文档:DataNode Hot Swap Drive

Datanode supports hot swappable drives. The user can add or replace HDFS data volumes without shutting down the DataNode. The following briefly describes the typical hot swapping drive procedure:

If there are new storage directories, the user should format them and mount them appropriately.

The user updates the DataNode configurationdfs.datanode.data.dirto reflect the data volume directories that will be actively in use.

The user runsdfsadmin -reconfig datanode HOST:PORT startto start the reconfiguration process. The user can usedfsadmin -reconfig datanode HOST:PORT statusto query the running status of the reconfiguration task.

Once the reconfiguration task has completed, the user can safelyumountthe removed data volume directories and physically remove the disks.

经过谷歌翻译如下:

Datanode 支持热插拔驱动器。用户可以在不关闭 DataNode 的情况下添加或替换 HDFS 数据卷。下面简要介绍典型的热插拔驱动器过程:

如果有新的存储目录,用户应该格式化它们并适当地挂载它们。

用户更新 DataNode 配置dfs.datanode.data.dir以反映将被积极使用的数据卷目录。

用户运行dfsadmin -reconfig datanode HOST:PORT start来启动重新配置过程。用户可以使用dfsadmin -reconfig datanode HOST:PORT status查询重配置任务的运行状态。

重新配置任务完成后,用户可以安全地卸载已移除的数据卷目录并物理移除磁盘。

我们先说添加新的磁盘,大意就是不需要重启任何节点,在需要添加磁盘的节点上,添加好磁盘,这个需要运维操作,就是挂载一个新目录,文档中是说要配置DataNode的目录,这里我们建议加上NameNode的目录dfs.namenode.name.dir,然后再执行一个使配置生效的命令,最后查看配置状态。

这里假设已有集群,需要加磁盘的节点为node2。运维也已经帮我们挂载好磁盘,新磁盘目录为/data2

在node2上添加新目录,数据目录和元数据目录

mkdir -p /data2/soft/hadoop/tmp/dfs/data

mkdir -p /data2/soft/hadoop/tmp/dfs/name

修改节点node2的配置文件hdfs-site.xml,主要两个属性

修改前

修改后

重新配置DataNode的配置,使配置生效。

hdfs dfsadmin -reconfig datanode node2:50020 start

hdfs dfsadmin -reconfig datanode node2:50020 status

HDFS数据本身并不总是均匀的放置在DataNode中,在添加新磁盘后,我们需要重新平衡下数据,HDFS为我们提供了一个工具,可以分析数据块放的位置和跨 DataNode 重新平衡数据:balancer

官方文档:hdfs balancer

在平衡时受带宽影响,每个数据节点每秒使用的最大字节数是有限的,所以我们先临时设置这个值,此值会覆盖hdfs-site.xml中dfs.datanode.balance.bandwidthPerSec的值,默认是1M,本操作命令不会持久,命令如下:

hdfs dfsadmin -setBalancerBandwidth 104857600

其他值:1024*1024=1M(1048576),52428800=50M,104857600=100M

本次执行平衡命令,磁盘平衡目标数为20nohup hdfs balancer -threshold 20 > balancer.log &

平衡所有节点nohup hdfs balancer > balancer.log &

平衡指定节点,磁盘平衡目标数为10nohup hdfs balancer -include node7,node9,node10,node11 -threshold 10 > balancer.log &

平衡指定节点,磁盘平衡目标数,启动线程数为10nohup hdfs balancer -include node7,node9,node10,node11 -threshold 10 -idleiterations 10 > balancer.log &

注(可选):一般在平衡时,可以先停止存储比较高的节点上的NodeManager,这样在该节点上就不会受本地NodeManager落数据到本地,使得本地存储迅速增加的影响。

yarn-daemon.sh stop nodemanageryarn-daemon.sh start nodemanager

本文:HDFS免重启挂载新磁盘的方法的详细内容,希望对您有所帮助,信息来源于网络。
上一篇:TypeScript只读修饰符怎么用下一篇:

5 人围观 / 0 条评论 ↓快速评论↓

(必须)

(必须,保密)

阿狸1 阿狸2 阿狸3 阿狸4 阿狸5 阿狸6 阿狸7 阿狸8 阿狸9 阿狸10 阿狸11 阿狸12 阿狸13 阿狸14 阿狸15 阿狸16 阿狸17 阿狸18