> 技术文档 > 中小型企业大数据平台全栈搭建:Hive+HDFS+YARN+Hue+ZooKeeper+MySQL+Sqoop+Azkaban 保姆级配置指南_hdfs+hive+flume+sqoop+azkaban

中小型企业大数据平台全栈搭建:Hive+HDFS+YARN+Hue+ZooKeeper+MySQL+Sqoop+Azkaban 保姆级配置指南_hdfs+hive+flume+sqoop+azkaban


目录

  • 背景‌
  • 一、环境规划与依赖准备‌
    • 1. 服务器规划(3节点集群)
    • 2. 系统与依赖‌
    • 3. Hadoop生态组件版本与下载路径
    • 4. 架构图
  • 二、Hadoop(HDFS+YARN)安装与配置‌
    • 1. 下载与解压(所有节点)
    • 2. HDFS高可用配置
    • 3. YARN资源配置‌
    • 4. 启动Hadoop集群
  • 三、MySQL安装与Hive元数据配置‌
    • 1. 安装MySQL(Master节点)
    • 2. Hive配置连接MySQL
    • 3. 初始化Hive元数据
  • 四、Sqoop安装与数据迁移实战‌
    • 1. 下载与配置(Master节点)
    • 2. 配置环境变量
  • 五、Azkaban工作流调度系统部署‌
    • 1. 安装Azkaban(Master和Worker1节点)
    • 2. 配置Azkaban‌
    • 3. 启动服务
  • 六、Hue可视化平台与ZooKeeper配置‌
    • 1. Hue安装与配置(Master节点)‌
    • 2. ZooKeeper集群配置‌
  • 六、常见问题解决方案
  • 七、总结与维护指南‌
    • 1. 核心组件配置表
    • 2. 维护建议‌
    • 3. ‌部署建议‌

背景‌

对于中小企业,构建一套完整的本地化大数据平台需兼顾成本(5w内)、易用性和扩展性。基于Hadoop生态的组件(HDFS、YARN、Hive)结合数据工具(Sqoop、Azkaban)、可视化工具(Hue)和协调服务(ZooKeeper),能够实现从数据存储、计算、调度到可视化的全链路管理。
本文基于生产环境实践,详细讲解以下组件的安装、配置与联动:

  • 存储与计算‌:HDFS、YARN、Hive
  • 数据迁移‌:Sqoop(Hive与MySQL数据互通)
  • 调度系统‌:Azkaban
  • 可视化与协调‌:Hue、ZooKeeper
  • 元数据管理‌:MySQL

(一、环境规划与依赖准备‌中)提供全组件官方下载地址‌ 和 ‌配置模板‌,助您快速搭建企业级数据平台!

一、环境规划与依赖准备‌

1. 服务器规划(3节点集群)

节点角色 IP地址 部署服务 Master‌ 192.168.1.101 NameNode、ResourceManager、Hive、Hue、ZooKeeper、Azkaban Web Server、MySQL Worker1‌ ‌192.168.1.102 DataNode、NodeManager、ZooKeeper、Azkaban Executor Worker2‌ ‌192.168.1.103 DataNode、NodeManager、ZooKeeper

2. 系统与依赖‌

  • 操作系统‌:CentOS 7.9(所有节点)
  • JDK‌:JDK 8u381(下载地址)
  • ‌MySQL‌:5.7.44(存储Hive元数据)
  • Python‌:3.6+(Hue依赖)

3. Hadoop生态组件版本与下载路径

组件 稳定版本 官方下载路径 HDFS 3.3.6 Apache Hadoop Releases YARN 3.3.6 同上 Hive 3.1.3 Apache Hive Downloads Hue 4.11.0 Gethue Releases ZooKeeper 3.7.1 Apache ZooKeeper MySQL 5.7.44 MySQL Community Server Sqoop 1.4.7 Apache Sqoop Azkaban 4.0.0 Azkaban GitHub Releases Python 3.6+ EPEL 仓库安装 1. sudo yum install -y epel-release
2. sudo yum install -y python36 python36-devel

4. 架构图

中小型企业大数据平台全栈搭建:Hive+HDFS+YARN+Hue+ZooKeeper+MySQL+Sqoop+Azkaban 保姆级配置指南_hdfs+hive+flume+sqoop+azkaban

二、Hadoop(HDFS+YARN)安装与配置‌

1. 下载与解压(所有节点)

wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz tar -zxvf hadoop-3.3.6.tar.gz -C /opt mv /opt/hadoop-3.3.6 /opt/hadoop 

2. HDFS高可用配置

1)core-site.xml‌

<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://mycluster</value> </property> <property> <name