avatar

skv Blog

欢迎来到skv的博客🤯

  • 首页
  • 订阅
  • 归档
  • 友链
  • 关于
主页 Hadoop备忘录
文章

Hadoop备忘录

发表于 2023-03-6 更新于 2024-04- 11
作者 Administrator
11~15 分钟 阅读

常用命令

注:由于集群的根目录为/,以下涉及到集群目录的开头都要加/

hadoop fs -ls [集群目录] 查看目录
hdoop fs -cat [集群目录文件] 查看文件
hadoop fs -touch [集群文件] 在集群创建文件
hadoop fs -mkdir [集群目录] 在集群创建单级目录
    -p 创建多级目录
hadoop fs -rm -r [集群文件/集群目录] 删除集群文件/目录
hadoop fs -put [本地目录] [集群目录] 上传本地文件到集群目录
hadoop fs -get [集群目录] [本地目录] 下载集群文件到本地目录

WordCount程序

WordCount程序就是利用MR(MapReduce)计算模型来统计集群文件目录文本中每个单词出现的总次数并输出到集群输出目录(注:集群输出目录必须不存在)

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount [集群文件目录] [集群输出目录] 

出现问题?需要在mapred-site.xml文件添加

<property>
    <name>yarn.app.mapreduce.am.env</name>
    <value>HADOOP_MAPRED_HOME=/opt/module/hadoop-3.1.3</value>
</property>
<property>
    <name>mapreduce.map.env</name>
    <value>HADOOP_MAPRED_HOME=/opt/module/hadoop-3.1.3</value>
</property>
<property>
    <name>mapreduce.reduce.env</name>
    <value>HADOOP_MAPRED_HOME=/opt/module/hadoop-3.1.3</value>
</property>

启动集群

在NameNode节点的hadoop-3.1.3目录下启动HDFS

sbin/start-dfs.sh

在ResourceManager节点的hadoop-3.1.3目录下启动YARN

sbin/start-yarn.sh

在NameNode节点的hadoop-3.1.3目录下启动历史服务器 JobHistory

mapred --daemon start historyserver

Web 端查看HDFS 的 NameNode

http://master:9870

Web 端查看 YARN 的 ResourceManager

http://slave1:8088

Web 端查看历史服务器 JobHistory

master:19888

首次启动集群,需要在master节点格式化 NameNode(注意:格式化 NameNode,会产生新的集群 id,导致NameNode 和DataNode 的集群 id 不一致,集群找不到已往数据。如果集群在运行过程中报错,需要重新格式化 NameNode 的话,一定要先停止 NameNode 和 DataNode 进程,并且要删除所有机器的 data 和 logs 目录,然后再进行格式化。)

hdfs namenode -format

关闭集群

在NameNode节点的hadoop-3.1.3目录下关闭HDFS

sbin/stop-dfs.sh

在ResourceManager节点的hadoop-3.1.3目录下关闭YARN

sbin/stop-yarn.sh

在NameNode节点的hadoop-3.1.3目录下关闭历史服务器 JobHistory

mapred --daemon stop historyserver

分别启动/停止 HDFS 组件

hdfs --daemon start/stop namenode/datanode/secondarynamenode

分别启动/停止 YARN

yarn --daemon start/stop resourcemanager/nodemanager

常用端口号

hadoop3.x:

HDFS NameNode 内部通常端口:8020/9000/9820

HDFS NameNode 对用户的查询端口:9870

Yarn查看任务运行情况的端口:8088

历史服务器端口:19800

hadoop2.x:

HDFS NameNode 内部通常端口:8020/9000

HDFS NameNode 对用户的查询端口:50070

Yarn查看任务运行情况的端口:8088

历史服务器端口:19800

常用配置文件

hadoop3.x:core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml workers

hadoop2.x:core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml slaves

默认分类
大数据
许可协议:  CC BY 4.0
分享

相关文章

4月 11, 2024

命令速查

pip pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pip freeze > re

10月 16, 2025

一些好用的Java第三方库

Commons-io 开发者:Apache 简述:简化文件和流操作的库 <!-- https://mvnrepository.com/artifact/commons-io/commons-io --> <dependency> <groupId>commons-io</groupId>

9月 18, 2025

Java命名规范

包 全小写+域名倒置 package com.denox.java_demo.entity; package com.denox.java_demo.util; 类 大驼峰命名法:每个单词首字母大写 class User {} class UserStudent {} 方法 小驼峰命名法:第二个单

下一篇

Linux虚拟机配置动态和静态IP

上一篇

idea搭建spark运行环境

最近更新

  • 命令速查
  • 一些好用的Java第三方库
  • Java命名规范
  • Java学习笔记
  • 张家界学院校园网一键登录

热门标签

前端 Linux 速查 Java 工具 大数据

目录

©2025 skv Blog. 保留部分权利。

使用 Halo 主题 Chirpy