> 文档中心 > Hadoop之Java操作HDFS

Hadoop之Java操作HDFS

在具体操作之前需要先明确一下开发环境,代码编辑器使用idea,当然了eclipse也可以

这里使用的是idea 2021.2.2版本 2020版本的进行后续的实验时出现问题 更新版本后就好了

在创建项目的时候我们会创建maven项目,使用maven来管理依赖,是比较方便的.

在这里我们使用apache-maven-3.0.5-bin.zip ,当然了,其它版本也可以,没有什么本质的区别

把apache-maven-3.0.5-bin.zip解压到某一个目录下面,

在这里我解压到了D:\Program Files (x86)\apache-maven-3.0.5目录

解压之后,建议修改一下maven的配置文件,把maven仓库的地址修改到其它盘,例如D盘,默认是在C盘的用户目录下

修改D:\Program Files (x86)\apache-maven-3.0.5\conf下的settings.xml文件

将localRepository标签从注释中移出来,然后将值改为D:.m2,效果如下:

这里的目录名字可以随意起,只要易于识别就可以

D:\.m2

• 这样修改之后,maven管理的依赖jar包都会保存到D:.m2目录下了。

• 接下来需要配置maven的环境变量,和windows中配置JAVA_HOME环境变量是一样的。

• 先在环境变量中配置M2_HOME=D:\Program Files (x86)\apache-maven-3.0.5

• 然后在PATH环境变量中添加%M2_HOME%\bin即可

• 环境变量配置完毕以后,打开cmd窗口,输入mvn命令,只要能正常执行就说明windows本地的maven环境配置好了。

• 这还没完,还需要在idea中指定我们本地的maven配置

• 点击idea左上角的File–>Settings,进入如下界面,搜索maven,把本地的maven添加到这里面即可

创建一个maven项目

注意:项目创建好以后,在新打开的界面中需要点击右小角的Enable Auto Import,这样添加到maven依赖会自动引入,否则会发现引入依赖了,但是代码中还是识别不了,这个时候还需要手动引入,比较麻烦。

在这里我们需要引入hadoop-client依赖包,到maven仓库中去找,添加到pom.xml文件中

org.apache.hadoophadoop-client3.3.2

然后创建代码

####上传 下载 删除文件

package com.helloworld;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IOUtils;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;/** * java操作HDFS * 文件操作:上传 下载 删除 * CREATE BY DA */public class HelloWorld {    public static void main(String[] args) throws Exception{ //创建一个配置对象 Configuration conf = new  Configuration(); //指定HDFS的地址 conf.set("fs.defaultFS","hdfs://192.168.10.130:9000"); //获取操作HDFS的对象 FileSystem fileSystem = FileSystem.get(conf); //上传文件 put(fileSystem); //下载文件 //get(fileSystem); //删除文件 //delete(fileSystem);    }    /**     * 删除文件或者目录     * @param fileSystem     * @throws IOException     */    private static void delete(FileSystem fileSystem) throws IOException { //如果要递归删除目录,则第二个参数需要设置为true //如果删除的是文件或者空目录,第二个参数会被忽略 boolean flag = fileSystem.delete(new Path("/LICENSE.txt"), true); if (flag){     System.out.println("删除成功!"); } else {     System.out.println("删除失败!"); }    }    /**     * 上传文件     * @param fileSystem     * @throws IOException     */    private static void get(FileSystem fileSystem) throws IOException { //获取HDFS文件系统中的输入流 FSDataInputStream fis = fileSystem.open(new Path("/README.txt")); //获取本地文件的输出流 FileOutputStream fos = new FileOutputStream("D:\\README.txt"); //下载文件 IOUtils.copyBytes(fis, fos, 1024,true);    }    /**     *下载文件     * @param fileSystem     * @throws IOException     */    private static void put(FileSystem fileSystem) throws IOException { //获取本地文件的输入流 FileInputStream fis = new FileInputStream("D:\\user1.txt"); //获取HDFS文件系统的输出流 FSDataOutputStream fos = fileSystem.create(new Path("/user1.txt")); //上传文件,通过工具类把输入流拷贝到输出流里面,实现本地文件上传到HDFS IOUtils.copyBytes(fis, fos, 1024, true);    }}

我们在执行代码的时候会发现输出了很多红色的警告信息,虽然不影响代码执行,但是看起来很碍眼

下面是解决问题的途径

通过分析错误信息发现第一个是缺少log4j的实现类,第二个是缺少log4j的配置文件

1:pom.xml中增加log4j依赖

org.slf4jslf4j-api1.7.10org.slf4jslf4j-log4j121.7.10

2:resources目录下添加log4j.properties文件

在项目的src\main\resources目录中添加log4j.properties

log4j.properties文件内容如下:

log4j.rootLogger=info,stdoutlog4j.appender.stdout = org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.Target = System.outlog4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appender.stdout.layout.ConversionPattern=%d{yyyy-MM-dd HH:mm:ss,SSS} [%t] [%c] [%p] - %m%n

再执行代码,发现就不会有那些红色的警告信息了。

素描网