Spark提交运行配置
最后修改时间:2023年9月5日通过Spark插件,您可以在Spark 集群上执行应用程序。IntelliJ IDEA 提供运行/调试配置来运行Spark 的 bin 目录中的Spark-submit 脚本。您可以在本地或使用 SSH 配置执行应用程序。
提示
笔记
目前,IntelliJ IDEA 不支持调试 Spark 应用程序。
安装 Spark 插件
此功能依赖于Spark插件,您需要安装并获得该插件。
单击打开 IDE 设置,然后选择插件。CtrlAlt0S
Marketplace选项卡,找到Spark插件,然后单击打开Install(如果出现提示,请重新启动IDE)。
使用 Spark 提交配置运行应用程序
提示
要快速创建Spark提交运行配置,请在来源Java或Scala代码中使用特殊的安装订线图标。
转到“运行”|编辑配置。或者,按,然后按。AltShiftF1000
单击添加新配置按钮 ( ) 并选择Spark 提交|簇。
提示
Spark提交|本地和Spark提交| IntelliJ IDEA 2023.2 中已放弃使用SSH 配置。
输入运行配置名称。
在远程目标列表中,执行以下操作之一:
如果您连接到AWS EMR集群,则可以在其上上传应用程序。
如果您有 SSH 配置,则可以使用它们将应用程序提交到自定义远程服务器。
否则,单击“添加 EMR 连接”或“添加 SSH 连接”。
在“申请”字段中,选择申请文件的获取方式:
单击以选择 Gradle 任务和工件。
单击以选择IDEA 工件。
或者单击从本地计算机下载 JAR 或 ZIP 文件。
在“类”字段中,键入应用程序主类的名称。
笔记
要检查结果
spark-submit
命令,请升级到“结果提交命令”部分。您还可以指定可选参数:
运行参数:运行应用程序的参数。
在Spark Configuration下,设置:
集群管理器:选择在集群上运行应用程序的管理方法。SparkContext可以连接到多种类型的集群管理器(Spark 自己的独立集群管理器、Mesos 或 YARN)。请参阅集群模式概述中的详细更多信息。
部署模式:集群或客户端。
目标上传目录:远程主机上上传文件的目录。
Spark home:Spark安装目录的路径。
Configs:任何 Spark 配置属性,采用 key=value 格式。
属性文件:具有Spark属性文件的路径。
在“依赖”下,选择要执行的应用关系程序所需的文件和文档(jar)。
在Maven下,选择Maven特定的依赖项。您可以添加存储库或从执行上下文中排除某些包。
在Driver下,选择Spark Driver设置,例如用于驱动程序进程的内存量。对于集群模式,还可以指定核心数。
在Executor下,选择执行器设置,例如内存量和核心数。
Kerberos:用于与 Kerberos 建立安全连接的设置。
Shell 选项:选择是否要在 Spark 提交之前执行任何脚本。
输入bash的路径并指定要执行的脚本。建议提供脚本的绝对路径。
如果您想以交互模式启动脚本,请选择交互模式。您还可以指定环境变量,例如
USER=jetbrains
。高级提交选项:
代理用户:启用使用代理进行Spark连接的用户名。
驱动程序Java选项、驱动程序库路径和驱动程序类路径:添加其他驱动程序选项。有关详细信息,请参见运行时环境。
档案:要提取到每个执行器的工作目录中的以分隔符分隔的档案列表。
打印额外的调试输出:运行spark-submit并选择
--verbose
打印调试信息。
单击“确定”保存配置。然后从创建的配置列表中选择配置并单击。
在“运行”工具窗口中检查执行结果。
感谢您的反馈意见!