美文网首页
hadoop wordcount

hadoop wordcount

作者: 零点145 | 来源:发表于2019-06-05 11:39 被阅读0次

Hadoop版本:hadoop-1.0.4

第一步:先启动hadoop守护进程、在hadoop 的bin目录下执行。

1.格式化:hadoop namenode -format

2.启动服务:start-all.sh hadoop-daemon.sh start namenode  hadoop-daemon.sh start datanode (很多时候,这namenode和datanode都没有起来、有些不知道为什么).

第二步:在eclipse上安装hadoop插件

1.复制hadoop-eclipse-plugin-1.0.3.jar 到 eclipse安装目录/dropins/ 下。

2.重启eclipse,配置hadoop installation directory。

如果安装插件成功,打开Window-->Preferens,你会发现Hadoop Map/Reduce选项,在这个选项里你需要配置Hadoop installation directory。配置完成后退出。

3.配置Map/Reduce Locations。

在Window-->Show View中打开Map/Reduce Locations。

在Map/Reduce Locations中新建一个Hadoop Location。在这个View中,右键-->New Hadoop Location。在弹出的对话框中你需要配置Location name,如Hadoop,还有Map/Reduce Master和DFS Master。这里面的Host、Port分别为你在mapred-site.xml、core-site.xml中配置的地址及端口。如:

Map/Reduce Master

192.168.1.101

9001

DFS Master

192.168.1.101

9000

配置完后退出。点击DFS Locations-->Hadoop如果能显示文件夹(2)说明配置正确,如果显示"拒绝连接",请检查你的配置。

第三步:新建项目。

File-->New-->Other-->Map/Reduce Project

项目名可以随便取,如HadoopTest。

将hadoop中的WordCount.java复制到hadooptest中。

第四步:上传模拟数据文件夹。

为了运行程序,我们需要一个输入的文件夹,和输出的文件夹。

在本地新建word.txt

aaa

abc

asdf

sdf

sdf

sdfdd

sdaa asdfasdf

通过hadoop的命令在HDFS上创建input目录,命令如下:bin/hadoop fs -mkdir input  默认是在:/user/root/下

通过copyFromLocal命令把本地的word.txt复制到HDFS上,命令如下:bin/hadoop fs -copyFromLocal /home/hadoop/word.txt  /user/root/input/word.txt 或者是将:copyFromLocal 换成put 命令。

通过hadoop fs -ls input 命令来查看文件是否上传上去了。

第五步:运行项目

1.在新建的项目Hadoop,点击WordCount.java,右键-->Run As-->Run Configurations

2.在弹出的Run Configurations对话框中,点Java Application,右键-->New,这时会新建一个application名为WordCount

3.配置运行参数,点Arguments,在Program arguments中输入“你要传给程序的输入文件夹和你要求程序将计算结果保存的文件夹”,如:

hdfs://192.168.1.101:9000/user/root/input/word.txt   hdfs://192.168.1.101:9000/user/root/input/output

4、如果运行时报java.lang.OutOfMemoryError: Java heap space 配置VM arguments(在Program arguments下)

-Xms512m -Xmx1024m -XX:MaxPermSize=256m

5.点击Run,运行程序。

点击Run,运行程序,过段时间将运行完成,等运行结束后,查看运行结果,使用命令: bin/hadoop fs -ls /user/root/input/output查看例子的输出结果,发现有两个文件夹和一个文件,使用命令查看part-r-00000文件, bin/hadoop fs -cat /user/root/output/part-r-00000可以查看运行结果。

相关文章

网友评论

      本文标题:hadoop wordcount

      本文链接:https://www.haomeiwen.com/subject/dopjxctx.html