大数据-Hadoop-基础篇-第四章-MapReduce (离线计算引擎)

目录
参考
概念
MapReduce 常用于对大规模数据集(大于 1TB)的并行运算,或对大数据进行加工、挖掘和优化等处理。
MapReduce 将并行计算过程高度抽象到了两个函数 map 和reduce 中,程序员只需负责 map和 reduce 函数的编写工作,而并行程序中的其它复杂问题(如分布式存储、工作调度、负载均衡、容错处理等)均可由MapReduce 框架代为处理,程序员完全不用心。
MapReduce 技术特征:
- 横向扩展,而非纵向扩展过
- 失效被认为是常态、
- 将处理向数据迁移
- 顺序处理数据
- 隐藏系统层细节.
- 平滑无缝的可扩展性。
程序
WordCount执行流程
//第一步:指定文件的读取方式和读取路径
job.setInputFormatClass(TextInputFormat.class); // 表示按行执行
TextInputFormat.addInputPath(job, new Path("hdfs://master:9000/wordcount"));
//TextInputFormat.addInputPath(job, new Path("file:///D:\mapreduce\input"));