订阅RSS：

标签：开发

在完成之前的 Hadoop 入门系列教程以后，现在才开始真正的接触数据仓库，我们先了解一下 Hadoop 生态圈中的 Hive 是什么。

就在三天前，两个恶意提交被推送到 PHP 团队在其 git.php.net 服务器上维护的 php-src Git代码仓库中。且这两个提交还都伪造了他的签名和 PHP 创建者 Rasmus Lerdorf 的签名。

在 Zookeeper 入门教程前三篇已经基本可以使用 Zookeeper 了，本文就带大家进一步走进 Zookeeper，大致了解一下 Zookeeper 是如何运行的。

上一篇我们已经可以通过编程的方式操作 Zookeeper 了，并且学到了 Zookeeper 注册与监听，那么就来小试牛刀体验一把，本文将带你实践体验一个简单的小案例，监听节点的变化。

上一篇文章我们已经成功安装了 Zookeeper，虽然可以使用命令行操作 Zookeeper，但大部分时间还是通过编程调用操作 Zookeeper 的，所以本文就简单介绍一下入门级的基础操作。

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它可以接受观察者的注册订阅，当数据发生改变时就可以通知观察者，你可以理解为 ZooKeeper = 文件系统+通知机制。

在上一篇教程我们引入了 MapReduce 的执行机制，并粗略的讲了 InputFormat，现在该讲一下 Shuffle 了。Map方法之后，Reduce方法之前的数据处理过程称之为Shuffle。

在前面《Hadoop入门教程（十一）：编程的方式使用 MapReduce 实现 WordCount 案例》中我们使用编程的方式体验了 MapReduce，MapReduce 的工作流程大概是下面这样的

上一节我们讲了编程的方式使用 MapReduce，在其中我们第一次接触了到 Writable 类，本节就大概讲一下 Writable 类是干嘛的。

上一篇文章我们大致了解了什么是 MapReduce，这一节我们将使用代码编程的方式实现 WordCount 案例，体验一下 MapReduce 到底是怎么回事。

之前的文章初步带大家了解了 HDFS，现在就带大家初探另一个 Hadoop 核心内容 MapReduce。

博文分类

打赏

热评文章

热文排行