Hadoop 单机伪分布式安装_ubuntu里面安装的单机hadoop和hadoop伪分布式安装

技术文档

一、Ubuntu 虚拟机全新安装

1. 准备工作

下载镜像
Ubuntu 22.04 LTS ISO（推荐LTS版本）
虚拟机配置建议
- VMware/VirtualBox：至少2核CPU、4GB内存、50GB磁盘（Hadoop需要资源）
- 网络模式：NAT（默认）或桥接（如需局域网访问）

2. 安装步骤

创建新虚拟机
- 选择ISO启动 → 语言选 English（避免中文路径问题）→ 安装类型选 Minimal Installation（精简安装）。
磁盘分区（关键！）
- 选择 手动分区（Manual） → 按以下方案分配（示例）：
```
/ : ext4, 30GB （根分区）/home : ext4, 剩余空间（用户数据）swap : 4GB （内存≤8GB时建议）
```
- 注意：如果安装Hadoop，后续数据会存到HDFS，/home 无需过大。
用户名设置
- 用户名建议全英文（如 hadoopuser），密码简单易记（如 123456，学习用可简化）。

安装后操作

sudo apt update && sudo apt upgrade -y # 更新系统sudo apt install openssh-server # 安装SSH

二、Hadoop 单机伪分布式安装

1. 前置依赖

# 安装Java（Hadoop 3.x需要Java 8/11）sudo apt install openjdk-11-jdk -yjava -version # 验证安装# 配置SSH免密登录（Hadoop脚本依赖）ssh-keygen -t rsa -P \'\' -f ~/.ssh/id_rsacat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keyschmod 600 ~/.ssh/authorized_keysssh localhost # 测试免密登录

2. 下载并配置Hadoop

# 下载Hadoop 3.3.6（稳定版）wget https://archive.apache.org/dist/hadoop/core/hadoop-3.3.6/hadoop-3.3.6.tar.gztar -xzvf hadoop-3.3.6.tar.gz -C ~/ # 解压到用户目录mv ~/hadoop-3.3.6 ~/hadoop  # 重命名简化路径# 配置环境变量echo \'export HADOOP_HOME=~/hadoopexport PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbinexport JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64\' >> ~/.bashrcsource ~/.bashrc

3. 修改Hadoop配置文件

编辑以下文件（路径：~/hadoop/etc/hadoop/）：

core-site.xml（核心配置）：

<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property></configuration>

hdfs-site.xml（HDFS配置）：

<configuration> <property> <name>dfs.replication</name> <value>1</value>  </property></configuration>

mapred-site.xml（MapReduce配置）：

<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property></configuration>

yarn-site.xml（YARN配置）：

<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property></configuration>

4. 启动Hadoop

# 格式化HDFS（仅第一次需要）hdfs namenode -format# 启动所有服务start-dfs.shstart-yarn.sh# 验证进程jps # 应显示：NameNode, DataNode, ResourceManager, NodeManager

三. 可能出现的报错

1. 找不到命令“vim\"

sudo apt updatesudo apt install vim # 标准功能版

2. ERROR: JAVA_HOME is not set and could not be found.

这个错误表明 Hadoop 无法找到 Java 路径（JAVA_HOME 环境变量未正确设置）。以下是完整的解决方案：

1. 确认 Java 已安装

java -version

如果未安装，执行：

sudo apt updatesudo apt install openjdk-11-jdk # Hadoop 3.3.x 推荐 JDK 8 或 11

2. 查找 Java 安装路径

sudo update-alternatives --config java

输出示例：

/usr/lib/jvm/java-11-openjdk-amd64/bin/java

记录路径前缀（去掉 /bin/java）：后面要用到这个路径

/usr/lib/jvm/java-11-openjdk-amd64

3. 永久设置 JAVA_HOME

修改 Hadoop 环境文件
编辑 hadoop-env.sh：

nano ~/hadoop/etc/hadoop/hadoop-env.sh

找到并取消注释这行，填入你的 Java 路径：

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64

保存后退出（Ctrl+O → Enter → Ctrl+X）。

4. 验证配置

echo $JAVA_HOME # 应显示正确路径hadoop version # 检查输出是否包含 Java 路径

正常输出示例：

Hadoop 3.3.6Source code repository https://github.com/apache/hadoop -r ...Compiled by user on 2023-04-29T10:25ZCompiled with protoc 3.7.1From source with checksum ...This command was run using /usr/lib/jvm/java-11-openjdk-amd64/lib/tools.jar

5. 重新启动 Hadoop

stop-dfs.sh # 先停止服务（如果之前启动失败）start-dfs.sh # 重新启动

成功时会有类似以下输出：

Starting namenodes on [localhost]localhost: Starting namenode, logging to /usr/local/hadoop/logs/hadoop-ghost-namenode-ghost-virtual-machine.outlocalhost: Starting datanode, logging to /usr/local/hadoop/logs/hadoop-ghost-datanode-ghost-virtual-machine.outStarting secondary namenodes [ghost-virtual-machine]ghost-virtual-machine: Starting secondarynamenode, logging to /usr/local/hadoop/logs/hadoop-ghost-secondarynamenode-ghost-virtual-machine.out

6. 检查服务状态

jps

正常应显示：

NamenodeDatanodeSecondaryNameNode

4. 验证配置

echo $JAVA_HOME # 应显示正确路径hadoop version # 检查是否输出 Hadoop 版本（含 Java 信息）

5. 重新格式化 HDFS

hdfs namenode -format

成功时会显示 Storage directory /tmp/hadoop-xxx/dfs/name has been successfully formatted。

Hadoop 单机伪分布式安装_ubuntu里面安装的单机hadoop和hadoop伪分布式安装

一、Ubuntu 虚拟机全新安装

1. 准备工作

2. 安装步骤

二、Hadoop 单机伪分布式安装

1. 前置依赖

2. 下载并配置Hadoop

3. 修改Hadoop配置文件

4. 启动Hadoop

三. 可能出现的报错

1. 找不到命令“vim\"

2. ERROR: JAVA_HOME is not set and could not be found.

1. 确认 Java 已安装

2. 查找 Java 安装路径

3. 永久设置 JAVA_HOME

4. 验证配置

5. 重新启动 Hadoop

6. 检查服务状态

4. 验证配置

5. 重新格式化 HDFS

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签

Hadoop 单机伪分布式安装_ubuntu里面安装的单机hadoop和hadoop伪分布式安装

一、Ubuntu 虚拟机全新安装

1. 准备工作

2. 安装步骤

二、Hadoop 单机伪分布式安装

1. 前置依赖

2. 下载并配置Hadoop

3. 修改Hadoop配置文件

4. 启动Hadoop

三. 可能出现的报错

1. 找不到命令“vim\"

2. ERROR: JAVA_HOME is not set and could not be found.

1. 确认 Java 已安装

2. 查找 Java 安装路径

3. 永久设置 JAVA_HOME

4. 验证配置

5. 重新启动 Hadoop

6. 检查服务状态

4. 验证配置

5. 重新格式化 HDFS

相关问题

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签