博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
简述Hadoop 1.X 系统原理
阅读量:6899 次
发布时间:2019-06-27

本文共 842 字,大约阅读时间需要 2 分钟。

一、hadoop 1.x结构

图片描述

  • HDFS:hadoop分布式存储系统
  • MapReduce:分布式计算框架,包含资源管理和任务调度等(hadoop 2.x中被分离到Yarn组件)。
  • API:用户与系统交互的入口,有原生的MapReduce API,也有对Map Reduce进行封装抽象的Pig、Hive和HBase等。

二、hadoop 1.x运行原理

图片描述

  • 1:客户端首先向Master节点的JobTracker发送请求,JobTracker会解析请求信息判断要处理的是什么文件。
  • 2-->3:JobTracker向hdfs中的NameNode发送请求,获取文件所在的位置、名称以及文件所对应的所有data block信息。
  • 4:JobTracker计算处理这些data block所需要的map task和reduce task的数量,并且把这些任务加入任务队列。
  • 5-->6: JobTracker查看组成文件的data block所在的DataNode节点的状态,检查是否有空闲的map
    slot或者reduce slot。如果有空闲的slot,JobTracker向DataNode的TaskTracker发起请求处理数据任务,然后TaskTracker把slot所对应的处理资源调度给map task或者reduce task,MapReduce job数据处理阶段开始。TaskTracker监视任务的状态,并把状态发送JobTracker。
  • 7: TaskTracker了解到所有的task都完成时,把处理响应反馈给客户端。
小贴士:
1、TaskTracker是以slot的形式处理本地资源,把本地资源逻辑上拆分为一个个slot,每一个slot对应每一个task。
2、DataNode会周期性的向NameNode发送block report和节点运行状态,因此NameNode能够准实时的掌握hdfs集群的的信息。

参考资料:

1、《Hadoop For Dummies》

转载地址:http://ygpdl.baihongyu.com/

你可能感兴趣的文章
转载----Python正则表达式指南
查看>>
.Net使用system.Security.Cryptography.RNGCryptoServiceProvider类与System.Random类生成随机数
查看>>
HDU 1394 Minimum Inversion Number 线段树
查看>>
Java 集合系列04之 fail-fast总结(通过ArrayList来说明fail-fast的原理、解决办法)
查看>>
ssm框架整合
查看>>
C/C++里自带提供的整数进制转换的几种方式(转载)
查看>>
JAVA类加载顺序
查看>>
数据结构复习
查看>>
JSONPlaceholder - 免费的在线REST服务(提供测试用的HTTP请求假数据)
查看>>
今天购买了一个云服务器
查看>>
C#以管理员身份运行程序
查看>>
inline 函数
查看>>
[摘录]遇见未知的自己(二)
查看>>
python基础===修改idle的输入风格
查看>>
对Linux下TCP连接相关配置的优化记录(转载)
查看>>
【DM642】H.264源代码在DM642上的移植
查看>>
Delphi7_Lite_Fullv7.3优化精简全功能版
查看>>
Android笔记之自定义对话框
查看>>
【转】超实用的JavaScript技巧及最佳实践
查看>>
个人博客作业三:微软小娜APP的案例分析
查看>>