Idea Scala Spark 开发环境

July 28 2016

1. 安装java1.84,scala以及其他基本工具

java 8, spark安装

sudo apt-get install git maven scala

2. 代码框架

(artifactId就是最后的jar包的名字)

手动生成全新的代码框架或者直接用我的带有spark样例测试的代码框架

How_do_I_setup_Maven

切换到工程目录,

mvn -B archetype:generate \
  -DarchetypeGroupId=org.apache.maven.archetypes \
  -DgroupId=com.mycompany.app \
  -DartifactId=my-app

#pom.xml中spark core依赖
<!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core_2.11 -->
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_2.11</artifactId>
    <version>2.0.0</version>
</dependency>

3. 打开Idea,导入maven项目,安装插件,设置sdk

安装插件,ctrl+shift+a, plugins,install jetbrain plugins, 搜索scala,安装

4. 测试代码

sparkl-core pom dependency
running on yarn

#打包
mvn package -DskipTests=true -T 2C

$ ./bin/spark-submit --class path.to.your.Class --master yarn --deploy-mode cluster [options] <app jar> [app options]

$ ./bin/spark-submit --class org.apache.spark.examples.SparkPi \
    --master yarn \
    --deploy-mode cluster \
    --driver-memory 4g \
    --executor-memory 2g \
    --executor-cores 1 \
    --queue thequeue \
    lib/spark-examples*.jar \
    10

$ ./bin/spark-submit --class my.main.Class \
    --master yarn \
    --deploy-mode cluster \
    --jars my-other-jar.jar,my-other-other-jar.jar \
    my-main-jar.jar \
    app_arg1 app_arg2

5. java scala混合项目

其实主要是pom的配置

参考: