订阅RSS：

分类：大数据

Hadoop入门教程（十）：初见 MapReduce 分布式计算

之前的文章初步带大家了解了 HDFS，现在就带大家初探另一个 Hadoop 核心内容 MapReduce。

Hadoop入门教程（九）：本地搭建 Hadoop 开发环境

上一篇我们大致讲了 HDFS，从本节以后我们将通过编程写代码的方式开始使用 Hadoop 为我们服务，所以需要先搭建本地的 Hadoop 开发环境。如果阅读了前面的文章并在虚拟机中成功搭建了Hadoop，那么在本地搭建是易如反掌的，如果您还没搭建过或者没阅读过前面的文章，建议先阅读前面的文章。

进入阅读

Hadoop入门教程（八）：DataNode 工作原理

当 DataNode 启动后会向 NameNode 注册自己，并按周期（1小时）上报自己所有 Block 数据块信息。每3秒还会和 NameNode 传递心跳包，心跳包中包含了给 DataNode 的命令，如果超过10分钟没有收到 DataNode 的心跳，就认为该节点不可用。

进入阅读

Hadoop入门教程（七）：HDFS 数据读写流程

上一篇我们已经可以通过编程的方式操作 HDFS 了，但这一切背后在Hadoop集群里发生了什么呢，本篇文章简单介绍一下 HDFS 的读写流程。

进入阅读

Hadoop入门教程（六）：Hadoop API 使用编程的方式操作 HDFS

上一篇讲了使用 Shell 命令操作 HDFS，但实际中我们肯定不可能一直手动操作，还是需要通过编程实现自动化的，所以本文将带你熟悉一下使用 Java 编程控制 HDFS 中的文件。

进入阅读

Hadoop入门教程（五）：HDFS 分布式文件系统

HDFS是指 Hadoop Distributed File System，Hadoop分布式文件系统。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

进入阅读

Hadoop入门教程（四）：Hadoop 完全分布式集群环境

上一篇我们尝试了伪分布式的安装搭建，但真正使用的是分布式集群，所以这才是重点，本文章将使用三个节点来安装最小的Hadoop集群，体验完全分布式的环境。

进入阅读

Hadoop入门教程（三）：Hadoop 单节点本地运行与伪分布式

因为是入门学习，很多同学的电脑性能不具备集群环境的要求，我们先了解一下 Hadoop 单节点运行模式，以便您可以使用 Hadoop MapReduce和 Hadoop 分布式文件系统（HDFS）快速执行简单的操作。本节内容主要是带新手体验一下 Hadoop 的案例，相当于 Hello World 案例，揭开 Hadoop 神秘的面纱。

进入阅读