> 文档中心 > Hadoop入门(一)

Hadoop入门(一)


1. Hahoop概述

1.1 Hodoop是什么

  1. Hadoop是一个有Apache基金会所开发的分布式系统基础架构

  2. 主要解决海量数据存储和海量数据的分析计算问题

  3. 广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈

1.2 Hadoop优势

  1. 高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。

  2. 高扩展性:在集群间分配任务数据,可方便地扩展数以千计的节点。

  3. 高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。

  4. 高容错性:能够自动将失败的任务重新分配。

1.3 Hadoop组成

Hadoop1.x组成:Common(辅助工具)、HDFS(数据存储)、MapReduce(计算+资源调度)

Hadoop2.x组成:Common(辅助工具)、HDFS(数据存储)、Yarn(资源调度)、MapReduce(计算)

在Hadoop1.x时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大。

在Hadoop2.x时代,增加了Yarn。Yarn只负责资源的调度,MapReduce只负责运算。

Hadoop3.x时代在组成上没有变化。

1.3.1 HDFS 架构概述

Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。

  1. NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表块所在的DataNode等。

  2. DataNode(dn):本地文件系统存储文件块数据,以及快数据的校验和

3)Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份

1.3.2 YARN 架构概述

一种资源协调者,是Hadoop的资源管理器。

  1. ResourceManager(RM):整个集群资源(内存、CPU等)的老大

  2. NodeManage(NM):单个节点服务器的老大

  3. ApplicationMaster(AM):单个任务运行的老大

  4. Container :容器,相当于一台独立的服务器,里面封装了任务运行所需要的资源,如内存、CPU、磁盘、网络等

1.3.3 MapReduce架构概述

MapReduce将计算过程分为俩个阶段:Map和Reduce

  1. Map阶段并行处理输入数据

  2. Reduce阶段对Map结果进行汇总

在这里插入图片描述

2. Hadoop运行环境搭建

2.1 虚拟机环境准备

2.1.1 安装 Cent OS 7

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
现在呢,只是相当于把 “硬件(类型与组装了一台电脑,只不过这台电脑是虚拟的)” 安装完成。接下来,安装 "软件"
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
进去之后直接敲回车,然后等待安装

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.1.2 配置IP

点击左上角的编辑 ——> 虚拟网络编辑器

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

然后在 Windows 系统上找到 VMware Network Adapter VMnet8 编辑 IPv4 修改如下:(我的是win11系统,win7,win10的右击右下方的网络图标就可以)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.1.3 配置主机名称映射

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.2 Xshell 远程访问

Xshell的安装教程我就不写了。

Xshell 远程连接服务器

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
修改主机映射 进入 C:\Windows\System32\drivers\etc 路径
在这里插入图片描述
在这里插入图片描述

这么做的目的是为了方面我们后面在Xshell 中的远程连接,以后再创建远程连接时,就不需要输出ip了,直接输入主机名就好,效果如下:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.3 Xftp 远程传输工具

Xftp 的安装过程我也就不写,无脑下一步就好,记着更改安装目录就好。

2.4 安装 epel-release

注:Extra Package for Enterprise Linux 是为"红帽系"的操作系统提供额外的软件包,适用于 RHEL、CentOS和Scientific Linux。相当于一个软件仓库,大多数 rpm 包再官方 repository 中是找不到的 (说白了就是一个类似于补丁的一个东西)

在这里插入图片描述

输入命令:yum install -y epel-release

在这里插入图片描述

出现以下操作,则成功。若出现错误: 某某PID被锁定,则通过命令 kill -9 进程号 杀死进程,然后再从新执行以上命令。

在这里插入图片描述

2.5 关闭防火强,关闭防火墙开机自启

输入命令:

systemctl stop firewalld

在这里插入图片描述

systemctl disable firewalld.service

在这里插入图片描述

2.6 配置tom用户具有root权限,方便后期加sudo执行root权限的命令

vim /etc/sudoers

在这里插入图片描述

修改/etc/sudoers文件,在%wheel这行下面添加一行,如下所示:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.7 卸载自带的 JDK

rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps参数解读:rpm -qa:查询所安装的所以rpm软件包grep -i:忽略大小写xargs -n1:表示每次只传递一个参数rpm -e --nodeps:强制卸载软件

在这里插入图片描述
在这里插入图片描述

2.8 克隆虚拟机

克隆虚拟器前,一定要关闭!!右击虚拟机 ——>电源——>关闭客户机

右击虚拟机 ——>管理——>克隆

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

重复以上操作,在克隆一个 Hadoop03和Hadoop04

打开Hadoop02按以下操作修改

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

然后执行 reboot 重启虚拟机

按照以上操作将Hadoop03和Hadoop04 的ip和主机名 修改为对应 03和04

注意:以上所有虚拟机 reboot后 建议查询IP和主机名是否修改成功,并且要保证每一台都能ping通 www.baidu.com

确保无误后,将每一台虚拟机通过Xshell进行连接
在这里插入图片描述
在这里插入图片描述

确保每一个都能连接成功

2.9 安装JDK

在Hadoop01中安装JDK,剩下的02、03、04 我们会通过拷贝的方式进行安装JDK

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

拖拽完成后,关掉就可以了

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.10 安装Hadoop

依然是在Hadoop01中进行安装

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

唱吧