sparkDataFrame笔记

read # 读取文本文件 spark.read.text("path/to/text/file") # 读取CSV文件 spark.read.csv("path/to/csv/file") # 读取JSON文件 spark.read.json("path/to/json/file") # 读取Pa

2023-11-15 默认分类

HBase笔记

启动启动HBase start-hbase.sh 关闭HBase stop-hbase.sh 进入shell hbase shell 帮助 help help 'namespace' # 具体命令的详细帮助命名空间

2023-11-13 默认分类

Hive笔记

Set set hive.metastore.disallow.incompatible.col.type.changes=trur/false; 是否阻止不兼容的类型转换 set hive.exec.mode.local.auto=false/true; 是否切换本地模式 set mapreduc

2023-11-12 默认分类

离线组件启动命令与Web地址

Hadoop HDFS # 启动 $HADOOP_HOME/sbin/start-dfs.sh # 关闭 $HADOOP_HOME/sbin/stop-dfs.sh # 访问地址 http://master:9870/ YARN # 启动 $HADOOP_HOME/sbin/start-yar

2023-11-12 默认分类

Azkaban 集群部署

需要提前部署 MySQL 并启动 1、解压Azkaban mkdir /opt/module/azkaban-3.84.4 cd /opt/software tar -zxvf azkaban-db-3.84.4.tar.gz tar -zxvf azkaban-exec-server-3.84.

2023-11-11 默认分类

ClickHouse 集群部署

1、解压ClickHouse cd /opt/software/ tar -zxvf clickhouse-common-static-21.9.4.35.tgz tar -zxvf clickhouse-common-static-dbg-21.9.4.35.tgz tar -zxvf click

2023-11-10 默认分类

HBase 集群部署

需要提前部署 hadoop 并启动需要提前部署 Zookeeper并启动 1、解压HBase cd /opt/software tar -zxvf hbase-2.2.3-bin.tar.gz mv hbase-2.2.3 /opt/module/ 2、profile 配置 vim /etc/p

2023-11-09 默认分类

Hive 单点部署

需要提前部署 hadoop 并启动需要提前部署 MySQL 并启动 1、解压Hive cd /opt/software tar -zxvf apache-hive-3.1.2-bin.tar.gz mv apache-hive-3.1.2-bin /opt/module/hive-3.1.2 2

2023-11-08 默认分类

Spark on yarn 单点部署

需要提前部署 hadoop 并启动 1、解压软件包 cd /opt/software tar -zxvf spark-3.1.1-bin-hadoop3.2.tgz mv spark-3.1.1-bin-hadoop3.2 /opt/module/spark-3.1.1 2、profile 配置

2023-11-07 默认分类

Spark Standalone 集群部署

需要提前部署 hadoop 并启动 1、解压软件包 cd /opt/software tar -zxvf spark-3.1.1-bin-hadoop3.2.tgz mv spark-3.1.1-bin-hadoop3.2 /opt/module/spark-3.1.1 2、profile 配置

2023-11-06 默认分类