1.基础环境修改 b)Spark 部署目录创建
2.Spark 配置文件修改 修改$SPARK_HOME/conf/spark-default.conf, 增加如下内容 [Bash shell] 纯文本查看 复制代码 SPARK_WORKER_CORES=28 // 每个work node 可以使用的CORE 个数
SPARK_WORKER_MEMORY=56g // 每个work node 可以分配的内存大小
SPARK_WORKER_DIR=/data0/spark_dir/worker // 每个work node 的工作目录
SPARK_MASTER_HOST=master //主节点的hostname 修改$SPARK_HOME/conf/slaves,增加计算节点列表 [Bash shell] 纯文本查看 复制代码 slave1
slave2
slave3
3. Spark 安装包分发 将Spark的安装包copy到所有节点的相同目录下,并给每个节点设置如下环境变量 [Bash shell] 纯文本查看 复制代码 export SPARK_HOME=/data1/spark-2.0.1-bin-hadoop2.7
export PATH=$SPARK_HOME/bin:$PATH
4. 启动Spark 集群 根据官方文档说明是分两步启动,当然配置好了之后也可以一步启动。两步启动步骤如下: 1)先使用如下命令启动master [Bash shell] 纯文本查看 复制代码 ./sbin/start-master.sh 2)然后再启动所有slave节点 [Bash shell] 纯文本查看 复制代码 ./sbin/start-slaves.sh
5. 验证集群正常 1).在终端执行如下命令,打开Spark-shell 程序 [Bash shell] 纯文本查看 复制代码 $SPARK_HOME/bin/spark-shell 2).在Spark-shell 中执行如下命令, 集群搭建成功会打印如下结果 [Bash shell] 纯文本查看 复制代码 val a = sc.parallelize(1 to 9, 3) //1到9 这些数,分在3个分区中
a.map(_*3).collect //使用map 函数对数据做处理,每个数乘3,并返回结果 执行结果: [Bash shell] 纯文本查看 复制代码 scala> val a = sc.parallelize(1 to 9, 3)
a: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24
scala> a.map(_*3).collect
16/12/21 18:27:16 INFO YarnScheduler: Removed TaskSet 0.0, whose tasks have all completed, from pool
16/12/21 18:27:16 INFO DAGScheduler: ResultStage 0 (collect at <console>:27) finished in 0.993 s
16/12/21 18:27:16 INFO DAGScheduler: Job 0 finished: collect at <console>:27, took 1.313301 s
res0: Array[Int] = Array(3, 6, 9, 12, 15, 18, 21, 24, 27)
|