目录 前言 1 Hive表类型概述 2 内部表(管理表) 2.1 基本概念 2.2 特点 2.3 创建语法示例 2.4 数据加载过程 2.5 使用场景 2.6 注意事项 3 外部表(External Ta...
为了能够在本地对模型结果可视化,需要在本机安装ubuntu20.04,安装了整整一天,踩了不少坑,还因为linux与nvidia的爱恨情仇导致经典黑屏。网上的教程虽然多...
Ubuntu 安装终极指南:详解硬盘分区方案与实践 在安装 Ubuntu 操作系统时,合理的硬盘分区方案是确保系统稳定、高效运行,并方便日后维护的关键。本文将为你...
By 大数据技术与架构 场景描述:这是一个Spark的面试题合集。是我自己作为面试者和作为面试官都会被问到或者问到别人的问题,这个总结里面有大量参考了网上...
一:烧录镜像 1.1下载镜像 首先我们搜索自己想安装的Ubuntu镜像版本,哪个版本都行。我这里以20.04为例: 往下翻找到这个链接 有嫌麻烦的小伙伴可以直接戳...
Spark DAG、Stage 划分与 Task 调度底层原理深度剖析 核心知识点详解 1. DAG (Directed Acyclic Graph) 的构建过程回顾 Spark 应用程序的执行始于 RDD 的创...
一、Centos7镜像下载 1、百度云盘下载 链接:https://pan.baidu.com/s/154SH8WZ756II9j8EPa7Oqg?pwd=gol8 提取码:gol8 2、官网下载 https://www.centos.o...
在之前的系统IO当中已经了解了“内存”级别的文件操作,了解了文件描述符、重定向、缓冲区等概念,在了解了这些的知识之后还封装出了我们自己的libc库。接下来...
Flink SQL Connector Kafka 是连接Flink SQL与Kafka的核心组件,通过将Kafka主题抽象为表结构,允许用户使用标准SQL语句完成数据读写操作。本文基于Apache F...
以下是针对 Spark 性能调优黄金法则的深度解析与补充,结合 Catalyst 优化器和 Tungsten 执行引擎的核心优化技术,形成完整的调优体系: 1. 避免 Shuffle(...