您现在的位置 >> Hadoop教程 >> Hadoop实战 >> spark专题  
 

Spark 1.0.0 横空出世 Spark on Yarn 部署(Hadoop 2.4)...

【作者:Hadoop实战专家】【关键词:源码 解压 集群 Spark 调用 】 【点击:49189次】【2013-08-1】
就在昨天,北京时间5月30日20点多。 个人觉得这个功能对Hive的市场的影响很小,但对Shark冲击很大,就像win7和winXP的关系,自相残杀嘛? 把这个包copy到你想部署的目录并解压。 在这里我们不需要搭建独立的Spark集群,利用Yarn Client调用Hadoop集群的计算资源。  

相关热门搜索:hadoop源码分析

大数据标签:hadoop hdfs yarn hive spark bigdata

Spark 1.0.0 横空出世 Spark on Yarn 部署(Hadoop 2.4)

分类: Spark 2014-05-31 16:10 320人阅读 评论(0) 收藏 举报

hadoopsparkyarn

就在昨天,北京时间5月30日20点多。Spark 1.0.0终于发布了:Spark 1.0.0 released

根据官网描述,Spark 1.0.0支持SQL编写:Spark SQL Programming Guide

个人觉得这个功能对Hive的市场的影响很小,但对Shark冲击很大,就像win7和winXP的关系,自相残杀嘛?

这么着急的发布1.x 版是商业行为还是货真价实的体现,让我们拭目以待吧~~~~

本文是CSDN-撸大湿原创,如要转载请注明出处,谢谢:http://blog.csdn.net/tntzbzc/article/details/27817189

进入今天的正题:Spark 1.x onYarn (Hadoop 2.4)

源码编译

我的测试环境:

* 系统:Centos 6.4 - 64位
* Java:1.7.45
* Scala:2.10.4
* Hadoop:2.4.0 社区版

Spark 1.0.0 源码地址:http://d3kbcqa49mib13.cloudfront.net/spark-1.0.0.tgz

解压源码,在根去根目录下执行以下命令(sbt编译我没尝试)

./make-distribution.sh --hadoop 2.4.0 --with-yarn --tgz --with-hive

几个重要参数

--hadoop :指定Hadoop版本

--with-yarn yarn支持是必须的

--with-hive 读取hive数据也是必须的,反正我很讨厌Shark,以后开发们可以在Spark上自己封装SQL&HQL客户端,也是个不错的选择。

#      --tgz: Additionally creates spark-$VERSION-bin.tar.gz
#      --hadoop VERSION: Builds against specified version of Hadoop.
#      --with-yarn: Enables support for Hadoop YARN.
#      --with-hive: Enable support for reading Hive tables.
#      --name: A moniker for the release target. Defaults to the Hadoop verison.

不想自己编译的话直接下载二进制包吧:

Spark 1.0.0 on Hadoop 1 / CDH3, CDH4 二进制包:http://d3kbcqa49mib13.cloudfront.net/spark-1.0.0-bin-hadoop1.tgz

Spark 1.0.0 on Hadoop 2 / CDH5, HDP2 二进制包:http://d3kbcqa49mib13.cloudfront.net/spark-1.0.0-bin-hadoop2.tgz

进过漫长的等待,在源码跟目录下会生成一个tgz压缩包

把这个包copy到你想部署的目录并解压。

特别注意:只需要把解压包copy到yarn集群中的任意一台。一个节点就够了,不需要在所有节点都部署,除非你需要多个Client节点调用spark作业。

在这里我们不需要搭建独立的Spark集群,利用Yarn Client调用Hadoop集群的计算资源。

[plain] view plaincopy?

1. mv 解压后的目录/conf/spark-env.sh.template 解压后的目录/conf/spark-env.sh

编辑spark-env.sh

export HADOOP_HOME=/opt/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
SPARK_EXECUTOR_INSTANCES=4
SPARK_EXECUTOR_CORES=1
SPARK_EXECUTOR_MEMORY=1G
SPARK_DRIVER_MEMORY=2G
SPARK_YARN_APP_NAME="Spark 1.0.0"

这是我的配置,配置和之前的几个版本略有不同,但大差不差。

用Yarn Client调用一下MR中的经典例子:Spark版的word count

这里要特别注意,SparkContext有变动,之前版本wordcount例子中的的第一个参数要去掉。

为了方便,我把 SPARK_HOME/lib/spark-assembly-1.0.0-hadoop2.4.0.jar 拷贝到了HDFS中进行调用。(直接调用本地磁盘也是可以的)

[plain] view plaincopy?

1. SPARK_JAR="hdfs://master001.bj:9000/jar/spark/spark-assembly-1.0.0-hadoop2.4.0.jar" \
2. ./bin/spark-class org.apache.spark.deploy.yarn.Client \
3. --jar ./lib/spark-examples-1.0.0-hadoop2.4.0.jar \
4. --class org.apache.spark.examples.JavaWordCount \
5. --args hdfs://master001.bj:9000/temp/read.txt \
6. --num-executors 50 \
7. --executor-cores 1 \
8. --driver-memory 2048M \
9. --executor-memory 1000M \
10. --name "word count on spark"

运行结果在stdout中查看

速度还行吧,用6台节点/50个core计算4.3GB文件,用时31秒。

今天就到这吧,有时间还的把那篇神经网络继续写下去,下次再见

大数据系列spark相关文章:

最新评论
Eiko2014-09-10 12:53:04
at org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:79)
喳喳面包2014-09-09 02:22:55
发表了博文《Hadoop生态圈:13个让大象飞起来的开源工具》摘要:借助Google的三大论文,Hadoop打开了低成本海量数据处理之门;同时,借助了开源运动,Hadoop生态圈得以迅速成熟,也催生了http://t.cn/Rhw3XiN
paula2014-09-08 09:16:31
格式化,为什么会显示
玉沭林沣2014-09-08 04:47:12
我今天报名了一个技术大会,很不错,你也来看看:CSDN在线培训:用SQL-on-Hadoop构建互联网数据仓库与商务智能系统 - 会议 - CSDN.NET http://t.cn/8sZjWWw
JYF2014-09-07 10:42:22
@飞哥 嗯 我是这么弄的 飞哥 我是写python脚本调用hive 每次运行脚本前 我手动把测试的分区drop掉 然后运行脚本 脚本会在hive服务器一个地方写一个文本文件 然后load data 这个文件进去hive 分区是运行前删除的分区 不知道为什么 每运行一次 就多一个文件的数据
琉璃2014-09-06 06:43:00
做什么
倩倩2014-09-06 05:23:13
请问下paas云 谁用过cloud foundary
来自星星2014-09-05 04:15:54
现在码农找工作,一抖包袱都是,纯的美军装备,神马hadoop,spark,leveldb,太多了。各大单位也基本美械机械化小队,高度依赖开源,可惜某博士一直在自制车轮,这工作也不好找吧。
Eric-SongCailiang2014-09-04 03:04:34
【即时流式数据 MapReduce】 传统的 MapReduce 如 Hadoop, 是以任务的形式进行的 — 获取一批数据, 提交给系统, 然后获取结果. 但是, 有一些统计的需求是即时的, 统计任务需要持续的运行, 一旦数据生... 详见:http://t.cn/zYt1mdo
FowlerZhang2014-09-04 10:46:50
50万,简历请投fancyfrees@yeah.net
 
  • Hadoop生态系统资料推荐