欢迎来到Doc100.Net免费学习资源知识分享平台!
您的位置:首页 > 程序异常 >

hadoop学习1

更新时间: 2014-01-05 02:56:00 责任编辑: Author_N1

 

hadoop学习一
Web HDFS
•开启Web HDFS
•编辑hdfs-site.xml,添加属性“dfs.webhdfs.enabled”,设置值为“true”
•Webhdfs具有FileSystem接口完整实现
•Web hdfs通过restful api操作HDFS,使得客户端更简单、更广泛
Next
Hadoop核心组件——MapReduce
什么是MapReduce?
•MapReduce是一种编程模型,它适合大规模数据并行计算。
•MapReduce核心思想:将一个大任务分为多个小任务执行,然后再对它们的输出再进行处理
•MapReduce分为下面两个函数:
•Map函数:通常功能是过滤、获取、转换数据
•Reduce函数:聚合操作,求和、求平均数、计算TOP值、排序等
用SQL语言理解MapReduce
select ip, count(*) from access-log where date='2013-09-30' group by ip
•Where语句相当于一个map过程,用于找到需要处理的数据,
•group和count相当于reduce过程,用于将相同key的数据聚合在一起,然后做累加运算SQL语言与MapReduce最大不同点是不能做并行计算
JobTracker与TaskTracker
•Client提交MapReduceJob到JobTracker
•JobTracker决定哪个TaskTracker运行Job,决定条件:
•机架感知
•数据存放位置
•数据是否损坏
•JobTracker与TaskTracker通过心跳通信,如果TT长时间没有响应JT,则JT会重新安排任务到其它TT
•JobTracker负责跟踪Job整体运行进度
理解MapReduce任务槽(solt)
•每个TaskTracker都会配置任务槽
•任务槽也叫TaskTrackerChild进程,它是独立的JVM
•任务槽分为map槽和reduce槽,数量通过mapred-site.xml配置
•任务槽的作用是运行map或者reduce task
•任务槽与TT通信汇报状态
上一篇:上一篇
下一篇:下一篇

 

随机推荐程序问答结果

 

 

如对文章有任何疑问请提交到问题反馈,或者您对内容不满意,请您反馈给我们DOC100.NET论坛发贴求解。
DOC100.NET资源网,机器学习分类整理更新日期::2014-01-05 02:56:00
如需转载,请注明文章出处和来源网址:http://www.doc100.net/bugs/t/16286/
本文WWW.DOC100.NET DOC100.NET版权所有。