Hadoop入门教程(十):初见 MapReduce 分布式计算
2021年03月20日 13:02:43 · 本文共 1,267 字阅读时间约 4分钟 · 2,953 次浏览之前的文章初步带大家了解了 HDFS,现在就带大家初探另一个 Hadoop 核心内容 MapReduce。
什么是 MapReduce
MapReduce 是分布式运算的编程框架,Map(映射)和 Reduce(归约)是它们的主要思想,最早是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法。Google公司设计MapReduce的初衷主要是为了解决其搜索引擎中大规模网页数据的并行化处理。Google公司发明了MapReduce之后首先用其重新改写了其搜索引擎中的Web文档索引处理系统。但由于MapReduce可以普遍应用于很多大规模数据的计算问题,因此自发明MapReduce以后,Google公司内部进一步将其广泛应用于很多大规模数据处理问题。Google公司内有上万个各种不同的算法问题和程序都使用MapReduce进行处理。
2003年和2004年,Google公司在国际会议上分别发表了两篇关于Google分布式文件系统和MapReduce的论文,公布了Google的GFS和MapReduce的基本原理和主要设计思想。
MapReduce 的优点
MapReduce 既然是分布式运算的编程框架,是个编程框架,那么它就可以让程序员简单的完成一个分布式程序开发,跟之前写串行程序一样的简单。
当你的计算能力不满足你的需求时可以简单的通过添加机器的方式来扩容计算能力。
MapReduce 还具有容错性,当有节点死亡后还可以将计算任务转移到其他节点上运行,不会导致整个任务执行失败,而这一切不需要人工干预,这套编程框架将为我们自动完成。
因为是分布式的计算框架,它还可以处理海量的数据。
MapReduce 的缺点
不是实时计算,MapReduce 不能像SQL一样马上给出结果,所以大部分用于离线计算。
不能是流式计算,MapReduce 自身设计的特点是处理静态数据的,而不是实时动态数据的计算。
MapReduce 的思想
MapReduce 分为 Map(映射)和 Reduce(归约)两个步骤或者说两个阶段,我们分别来说。
Map(映射)
此处的 Map 操作叫映射,因为我们拿到的数据千奇百怪,格式可能不符合我们运算的需要,那么就需要对原始数据进行一些处理,整理成我需要的数据格式,以之前文章使用的 WordCount 单词统计的案例来说:
原始数据是一行一行的语句,每行有多个单词按空格分隔,那么 Map(映射)就是对原始数据逐行读取,并按照空格分隔进行切分成多个 K/V 键值对,例如:[{renfei:1},{word:1},{renfei:1},{test:1}]。就完成了Map(映射).
因为数据是以数据块(Block)分布在很多节点上的,那么就可以多个节点同步并行执行,大家一起搞。
Reduce(归约)
Reduce(归约)是第二步,将我们上一步Map(映射)的结果进一步处理,WordCount 的统计功能其实就是在 Reduce(归约)这一步做的,因为上一步 Map(映射)将源数据转换成了我们认识并且能处理的格式,所以这一步我们就可以对数据进行处理,统计就是其中一种处理。
结尾
现在我们已经大致了解了 MapReduce,下一章节我们将使用编程的方式使用 MapReduce 实现之前体验的 WordCount 案例,进一步理解 MapReduce 是怎么回事。
版权声明:本文为博主「任霏」原创文章,遵循 CC BY-NC-SA 4.0 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.renfei.net/posts/1003470
相关推荐
猜你还喜欢这些内容,不妨试试阅读一下以下内容均由网友提交发布,版权与真实性无法查证,请自行辨别。
- 前后端分离项目接口数据加密的秘钥交换逻辑(RSA、AES)
- OmniGraffle 激活/破解 密钥/密匙/Key/License
- Redis 未授权访问漏洞分析 cleanfda 脚本复现漏洞挖矿
- CleanMyMac X 破解版 [TNT] 4.6.0
- OmniPlan 激活/破解 密钥/密匙/Key/License
- 人大金仓 KingbaseES V8 R3 安装包、驱动包和 License 下载地址
- Parallels Desktop For Mac 16.0.1.48911 破解版 [TNT]
- Parallels Desktop For Mac 15.1.4.47270 破解版 [TNT]
- Sound Control 破解版 2.4.2
- CleanMyMac X 破解版 [TNT] 4.6.5
- 博客完全迁移上阿里云,我所使用的阿里云架构
- 微软确认Windows 10存在bug 部分电脑升级后被冻结
- 大佬们在说的AQS,到底啥是个AQS(AbstractQueuedSynchronizer)同步队列
- 比特币(BTC)钱包客户端区块链数据同步慢,区块链数据离线下载
- Java中说的CAS(compare and swap)是个啥
- 小心免费主题!那些WordPress主题后门,一招拥有管理员权限
- 强烈谴责[wamae.win]恶意反向代理我站并篡改我站网页
- 讨论下Java中的volatile和JMM(Java Memory Model)Java内存模型
- 新版个人网站 NEILREN4J 上线并开源程序源码
- 我站近期遭受到恶意不友好访问攻击公告