用户
 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 1231|回复: 0

Spark入门(四)——Standalone 集群搭建

[复制链接]

394

主题

412

帖子

2065

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
2065

活跃会员热心会员推广达人宣传达人灌水之王突出贡献优秀版主荣誉管理论坛元老

发表于 2016-12-22 12:43:31 | 显示全部楼层 |阅读模式
1.基础环境修改
a)多节点之间的免密登陆设置 参考:http://chenlb.iteye.com/blog/211809
b)Spark 部署目录创建

2.Spark 配置文件修改
修改$SPARK_HOME/conf/spark-default.conf, 增加如下内容
[Bash shell] 纯文本查看 复制代码
SPARK_WORKER_CORES=28       // 每个work node 可以使用的CORE 个数
SPARK_WORKER_MEMORY=56g  // 每个work node 可以分配的内存大小
SPARK_WORKER_DIR=/data0/spark_dir/worker   // 每个work node 的工作目录
SPARK_MASTER_HOST=master   //主节点的hostname
修改$SPARK_HOME/conf/slaves,增加计算节点列表
[Bash shell] 纯文本查看 复制代码
slave1
slave2
slave3

3. Spark 安装包分发
将Spark的安装包copy到所有节点的相同目录下,并给每个节点设置如下环境变量
[Bash shell] 纯文本查看 复制代码
export SPARK_HOME=/data1/spark-2.0.1-bin-hadoop2.7
export PATH=$SPARK_HOME/bin:$PATH

4. 启动Spark 集群
根据官方文档说明是分两步启动,当然配置好了之后也可以一步启动。两步启动步骤如下:
1)先使用如下命令启动master
[Bash shell] 纯文本查看 复制代码
./sbin/start-master.sh
2)然后再启动所有slave节点
[Bash shell] 纯文本查看 复制代码
./sbin/start-slaves.sh

5. 验证集群正常
1).在终端执行如下命令,打开Spark-shell 程序
[Bash shell] 纯文本查看 复制代码
$SPARK_HOME/bin/spark-shell
2).在Spark-shell 中执行如下命令, 集群搭建成功会打印如下结果
[Bash shell] 纯文本查看 复制代码
val a = sc.parallelize(1 to 9, 3)   //1到9 这些数,分在3个分区中
a.map(_*3).collect                  //使用map 函数对数据做处理,每个数乘3,并返回结果
执行结果:
[Bash shell] 纯文本查看 复制代码
scala> val a = sc.parallelize(1 to 9, 3)
a: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24
 
scala> a.map(_*3).collect
 
16/12/21 18:27:16 INFO YarnScheduler: Removed TaskSet 0.0, whose tasks have all completed, from pool 
16/12/21 18:27:16 INFO DAGScheduler: ResultStage 0 (collect at <console>:27) finished in 0.993 s
16/12/21 18:27:16 INFO DAGScheduler: Job 0 finished: collect at <console>:27, took 1.313301 s
res0: Array[Int] = Array(3, 6, 9, 12, 15, 18, 21, 24, 27)



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐 上一条 /4 下一条

返回顶部