> 文档中心 > 2.8 Mapreduce简介与使用

2.8 Mapreduce简介与使用

文章目录

  • 分布式处理框架 MapReduce
    • 什么是MapReduce
    • MapReduce编程模型
  • Hadoop Streaming 实现wordcount
    • Mapper
    • Reducer
    • 上传文件
    • 得到最终的输出
    • Hadoop Streaming
    • 参考

分布式处理框架 MapReduce

什么是MapReduce

  • 源于Google的MapReduce论文(2004年12月)
  • Hadoop的MapReduce是Google论文的开源实现
  • MapReduce优点: 海量数据离线处理&易开发
  • MapReduce缺点: 无法实时流式计算

MapReduce编程模型

  • MapReduce分而治之的思想

    • 数钱实例:一堆钞票,各种面值分别是多少