Hadoop备忘录

发表于 2023-03-6 更新于 2024-04- 11

作者 Administrator

11~15 分钟 阅读

常用命令

注：由于集群的根目录为/，以下涉及到集群目录的开头都要加/

hadoop fs -ls [集群目录] 查看目录
hdoop fs -cat [集群目录文件] 查看文件
hadoop fs -touch [集群文件] 在集群创建文件
hadoop fs -mkdir [集群目录] 在集群创建单级目录
    -p 创建多级目录
hadoop fs -rm -r [集群文件/集群目录] 删除集群文件/目录
hadoop fs -put [本地目录] [集群目录] 上传本地文件到集群目录
hadoop fs -get [集群目录] [本地目录] 下载集群文件到本地目录

WordCount程序

WordCount程序就是利用MR(MapReduce)计算模型来统计集群文件目录文本中每个单词出现的总次数并输出到集群输出目录(注：集群输出目录必须不存在)

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount [集群文件目录] [集群输出目录]

出现问题？需要在mapred-site.xml文件添加

<property>
    <name>yarn.app.mapreduce.am.env</name>
    <value>HADOOP_MAPRED_HOME=/opt/module/hadoop-3.1.3</value>
</property>
<property>
    <name>mapreduce.map.env</name>
    <value>HADOOP_MAPRED_HOME=/opt/module/hadoop-3.1.3</value>
</property>
<property>
    <name>mapreduce.reduce.env</name>
    <value>HADOOP_MAPRED_HOME=/opt/module/hadoop-3.1.3</value>
</property>

启动集群

在NameNode节点的hadoop-3.1.3目录下启动HDFS

sbin/start-dfs.sh

在ResourceManager节点的hadoop-3.1.3目录下启动YARN

sbin/start-yarn.sh

在NameNode节点的hadoop-3.1.3目录下启动历史服务器 JobHistory

mapred --daemon start historyserver

Web 端查看HDFS 的 NameNode

http://master:9870

Web 端查看 YARN 的 ResourceManager

http://slave1:8088

Web 端查看历史服务器 JobHistory

master:19888

首次启动集群，需要在master节点格式化 NameNode（注意：格式化 NameNode，会产生新的集群 id，导致NameNode 和DataNode 的集群 id 不一致，集群找不到已往数据。如果集群在运行过程中报错，需要重新格式化 NameNode 的话，一定要先停止 NameNode 和 DataNode 进程，并且要删除所有机器的 data 和 logs 目录，然后再进行格式化。）

hdfs namenode -format

关闭集群

在NameNode节点的hadoop-3.1.3目录下关闭HDFS

sbin/stop-dfs.sh

在ResourceManager节点的hadoop-3.1.3目录下关闭YARN

sbin/stop-yarn.sh

在NameNode节点的hadoop-3.1.3目录下关闭历史服务器 JobHistory

mapred --daemon stop historyserver

分别启动/停止 HDFS 组件

hdfs --daemon start/stop namenode/datanode/secondarynamenode

分别启动/停止 YARN

yarn --daemon start/stop resourcemanager/nodemanager

常用端口号

hadoop3.x：

HDFS NameNode 内部通常端口：8020/9000/9820

HDFS NameNode 对用户的查询端口：9870

Yarn查看任务运行情况的端口：8088

历史服务器端口：19800

hadoop2.x：

HDFS NameNode 内部通常端口：8020/9000

HDFS NameNode 对用户的查询端口：50070

Yarn查看任务运行情况的端口：8088

历史服务器端口：19800

常用配置文件

hadoop3.x：core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml workers

hadoop2.x：core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml slaves

默认分类

大数据

许可协议: CC BY 4.0