在hosts文件中,找到自己IP对应的域名。
到此,Hadoop本身的配置就算完成了。但hadoop会在master/slaves之间进行文件的操作,在机器之间操作时候,就必须做到免登陆。对此,我们就得设置相应的公钥私钥。
具体命令如下:
ssh-keygen -t rsa -P '' -P表示密码,-P '' 就表示空密码,也可以不用-P参数,这样就要三车回车,用-P就一次回车。它在/~ 下生成.ssh目录,.ssh下有id_rsa和id_rsa.pub。 如果是多台机器,则需要将公钥id-rsa.pub通过scp到其他机器的相同目录。 之后,追加公钥到相应文件,具体如下: cat id_rsa.pub >> .ssh/authorized_keys chmod 600 .ssh/authorized_keys 其中,authorized_keys要的权限是600 |
第一次登录是时要你输入yes,之后就不用了。
OK,所有均搞定了,进入hadoop-0.20.2/bin路径,直接执行start-all.sh脚本,即可启动Hadoop的服务了。
我们可以通过web的方式,对Hadoop的运转进行监控,具体url如下:
控制台:http://cap216057.sqa:50030/jobtracker.jsp
数据节点:http://cap216057.sqa:50070/dfshealth.jsp
cap216057.sqa可以再hosts里配置,或者直接访问IP地址。
二、 Hive搭建
Hive搭建在Hadoop的基础之上,相对就会简单很多。只需要设置Hadoop的HADOOP_HOME和HIVE_HOME即可了。
首先下载、解压,此操作与商品Hadoop的操作一样。值得注意的是,Apache的官网上会提供bin和dev两种版本的压缩包。建议使用bin版本。
完成之后,如下操作:
export HADOOP_HOME=/home/admin/hadoop-0.20.0/ export HIVE_HOME=/home/admin/hive-0.5.0-bin |
完成命令,直接在hive/bin目录下启动hive,启动端口任意写一个未被占用的即可。/hive --service hiveserver 10000 &
三、 测试
在hive/bin目录下,输入./hive,进入hive命令的控制台。执行hql,就是hive的sql具体如下:
create tables user(id,int);
show tables;