> 技术文档 > 大数据技术之Hadoop全家桶学习指南:HDFS+MapReduce+Yarn

大数据技术之Hadoop全家桶学习指南:HDFS+MapReduce+Yarn


数据技术之Hadoop全家桶学习指南:HDFS+MapReduce+Yarn


文章目录

  • 大数据技术之Hadoop全家桶学习指南:HDFS+MapReduce+Yarn
  • 背景
  • 一、Hadoop是什么?由哪些组件构成?
  • 二、Hadoop组件介绍
    • 1.HDFS架构概述
    • 2.MapReduce架构概述
    • 3.Yarn架构概述
    • 4.HDFS、MapReduce、Yarn三者关系
  • 总结

背景

随着互联网的发展,海量数据怎么存,怎么算成了一个问题,在这种背景下Hadoop应运而生,为大数据的存储和计算提供了一种方法,话不多说,进入正文。


一、Hadoop是什么?由哪些组件构成?

Hadoop的核心思想是分布式存储,主要由三个组件构成HDFSMapReduceYarn 正如下图:
大数据技术之Hadoop全家桶学习指南:HDFS+MapReduce+Yarn
HDFS :通过将大数据切分成多个数据块分布式存储在不同服务器上,提高了存储效率与容错性

MapReduce:将计算任务划分为若干子任务,在多个节点上并行处理后再进行结果汇总,提升了计算能力和处理速度

Yarn:作为资源管理和调度平台,负责协调集群中的计算资源,确保各任务高效运行

二、Hadoop组件介绍

1.HDFS架构概述

Hadoop Distribured File System,简称HDFS,是一个分布式文件系统

(1)NameDode:负责管理HDFS的元数据,如文件目录结构,以及文件块的位置。它是HDFS的核心控制整个文件系统的操作。

(2)DataNode:存储实际的数据块(block),负责数据的读写操作,并定期向NameNode报告其状态。

(3)SecondaryNode:定期备份 NameNode 的元数据,以防止 NameNode 崩溃导致的数据丢失。
大数据技术之Hadoop全家桶学习指南:HDFS+MapReduce+Yarn

2.MapReduce架构概述

MapReduce将计算任务分成两个步骤:MapReduce
(1)Map:将要计算的数据拆分成一个分片(split)放进服务器中进行并行处理,生成中间结果
(2)Reduce:对中间结果进行汇总,输出最终结果
大数据技术之Hadoop全家桶学习指南:HDFS+MapReduce+Yarn

3.Yarn架构概述

Yet Another Resource Negotiator,简称Yarn 是 Hadoop 生态系统中的资源管理层,主要负责集群资源的管理和调度
(1)ResourceManager整个集群资源的管理者,负责管理所有计算资源的分配
(2)NodeManager单个节点服务器资源的管理者
(3)ApplicationMaster单个任务运行的管理者
(4)Container容器,相当于一台独立的服务器,里面封装了任务运行所需要的资源,如内存、CPU、磁盘、网络等。大数据技术之Hadoop全家桶学习指南:HDFS+MapReduce+Yarn

4.HDFS、MapReduce、Yarn三者关系

当海量数据到来时,数据会被切分并存储在 HDFS 中。当需要进行计算时,数据从 HDFS 中提取并进一步切分为多个计算分片YARN 负责管理和调度服务器资源,将每个分片分配到相应的服务器,并通过 Map() 函数并行处理,最后使用 Reduce() 函数对结果进行汇总。这就是 Hadoop 中三个关键组件的协同工作过程。
三者关系正如下图:
大数据技术之Hadoop全家桶学习指南:HDFS+MapReduce+Yarn

总结

Hadoop 是一个强大的大数据处理框架,它通过 HDFSMapReduceYARN 三大核心组件,实现了高效的分布式存储与计算。HDFS 通过将数据分块存储在多台服务器上,确保了数据的高可用性与容错性;MapReduce 则将计算任务切分并并行处理,极大地提高了计算效率;而Yarn负责资源的动态调度和管理,保证了集群资源的高效利用。这三者紧密协作,使得 Hadoop 能够处理海量数据并为大数据应用提供可靠的基础架构。

Hadoop 的分布式架构为数据密集型行业提供了解决方案,尤其在处理大规模数据分析时,展现了其强大的处理能力可扩展性。随着大数据的快速发展,Hadoop 仍然是许多企业处理复杂数据任务的首选平台。

创作不易,大家点个小心心呗,记得关注博主哦~下期我们讲HiveSparkFlinkHadoop之间的关系,谢谢大家的支持啦!