发布日期:2015-12-07 15:06 来源: 标签: 云计算与大数据 Hadoop教程 Hadoop集群配置 海量数据
本章我们主要学习如何配置Hadoop守护进程的运行环境和运行参数?下面我们就做一下具体讲解,希望大家多多支持中国站长网络学院。
配置文件 
对Hadoop的配置通过conf/目录下的两个重要配置文件完成: 
1. src/core/core-default.xml, src/hdfs/hdfs-default.xml and src/mapred/map 
red-default.xml - 只读的默认配置。 
2. conf/core-site.xml, conf/hdfs-site.xml and conf/mapred-site.xml  - 集群特有的配置。 
此外,通过设置conf/hadoop-env.sh中的变量为集群特有的值,你可以对bin/目录下的Hadoop脚本进行控制。
 
集群配置说明
要配置Hadoop集群,你需要设置Hadoop守护进程的运行环境和Hadoop守护进程的运行参数。 
Hadoop守护进程指NameNode/DataNode和JobTracker/TaskTracker。 
1. 配置Hadoop守护进程的运行环境 
管理员可在conf/hadoop-env.sh脚本内对Hadoop守护进程的运行环境做特别指定。 
至少,你得设定JAVA_HOME使之在每一远端节点上都被正确设置。 
管理员可以通过配置选项HADOOP_*_OPTS来分别配置各个守护进程。 下表是可以配置的选项。 


例如,配置Namenode时,为了使其能够并行回收垃圾 (parallelGC), 要把下面的代码加入到hadoop-env.sh : 
export HADOOP_NAMENODE_OPTS="-XX:+UseParallelGC 
${HADOOP_NAMENODE_OPTS}" 
其它可定制的常用参数还包括: 
•HADOOP_LOG_DIR - 守护进程日志文件的存放目录。如果不存在会被自动创建。 
•HADOOP_HEAPSIZE - 最大可用的堆大小,单位为MB。比如,1000MB。 这个参数用于设置hadoop守护进程的堆大小。缺省大小是1000MB。 
2. 配置Hadoop守护进程的运行参数 
这部分涉及Hadoop集群的重要参数,这些参数在下面配置文件中指定。 
1)conf/core-site.xml: 

2)conf/hdfs-site.xml: 

3)conf/mapred-site.xml:


4)conf/mapred-queue-acls.xml 

通常,上述参数被标记为 final 以确保它们不被用户应用更改。 

相关评论

专题信息
    Hadoop是Apache开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用,如亚马逊、Facebook和Yahoo等等。Hadoop框架中最核心的设计就是:MapReduce和HDFS。MapReduce的思想是由Google的一篇论文所提及而被广为流传的,简单的一句话解释MapReduce就是“任务的分解与结果的汇总”。HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的缩写,为分布式计算存储提供了底层支持。本教程对Hadoop做了详解的介绍与讲解,教程中的实例能让大家更快的学习Hadoop,望大家多多支持中国站长网络学院。