当前位置: 移动技术网 > IT编程>脚本编程>Python > 用Python编写HadoopMR

用Python编写HadoopMR

2018年04月14日  | 移动技术网IT编程  | 我要评论

最新言情小说吧,男童吃毒蘑菇去世,反串王帅

Hadoop 版本:2.7.2

本地测试:

cat input.txt | ./mapper.py 

提交Hadoop:

hadoop jar {HADOOP_HOME}/share/hadoop/tools/lib/hadoop-streaming-2.7.2.jar \
                -file map.py 
                -mapper 'python map.py' \
                -reducer  cat \
                -input  %s\
                -output %s

map.py 基本结构

#!/usr/bin/env python
#coding:utf-8

import sys


for line in sys.stdin:

    line = line.strip()

    ...

    print ...

说明:map.py 对hdfs输入的数据按行处理后直接输出到hdfs,无reduce 部分

如对本文有疑问,请在下面进行留言讨论,广大热心网友会与你互动!! 点击进行留言回复

相关文章:

验证码:
移动技术网