使用自己编译产生的tgz压缩包
步骤:
前提:安装Scala(2.10.4)和JDK(1.7.x+)
- 解压
ln -s spark-1.6.0-bin-2.5.0/ spark
- 修改相关参数
到/spark/conf目录下修改文件
vim spark-env.sh
JAVA_HOME=/opt/modules/java
SCALA_HOME=/opt/modules/scala
HADOOP_CONF_DIR=/opt/cdh-5.3.6/hadoop/etc/hadoop
SPARK_LOCAL_IP=你的主机名
3. 启动HDFS
start-dfs.sh
4. 测试
./spark-shell
Standalone模式是Spark自身管理资源的一个模式,类似Yarn
Yarn的结构:
ResourceManager: 负责集群资源的管理
NodeManager:负责当前机器的资源管理
CPU&内存
SparkStandalone的结构:
Master: 负责集群资源管理
Worker: 负责当前机器的资源管理
CPU&内存
配置安装:
前提1:基于Local模式下的进行修改安装
前提2:所有机器以及完成SSH免密码登录
1. 修改spark-env.sh
vim spark-env.sh
SPARK_MASTER_IP=hadoop02-linux.alibaba.com
SPARK_MASTER_PORT=7070
SPARK_MASTER_WEBUI_PORT=8080
SPARK_WORKER_CORES=3 ## 一个work分配的cpu数量
SPARK_WORKER_MEMORY=3g ## 一个work分配的内存数量
SPARK_WORKER_PORT=7071
SPARK_WORKER_WEBUI_PORT=8081
SPARK_WORKER_INSTANCES=2 ## 一台机器允许同时存在的work的数量
2. 修改slaves.template,给定work节点的hostname
mv slaves.template slaves
vim slaves ## 一行一个hostname
3. 启动服务
sbin/start-all.sh
日志位于:spark/logs文件夹中
本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。