IntelliJ IDEA

2023.2

快捷方式：Windows

获取 IntelliJ IDEA

综合工具
大数据工具
火花
火花监测

最终的
火花监测

最后修改时间：2023 年 9 月 5 日

使用Spark插件，您可以直接在 IDE 中监控Spark集群和提交的作业。

在这一章当中：

从头开始建立与 Spark 服务器的连接
笔记
除了手动创建连接之外，如果您在 AWS EMR 集群上运行 Spark，您还可以快速创建连接。
从 Zeppelin 笔记本建立与 Spark 的连接
查看工作图表
过滤掉监控数据

连接到 Spark 服务器

在“大数据工具”窗口中，单击并选择Spark。
在打开的“大数据工具”对话框中，指定连接参数：
- 名称：连接的名称，用于区分其他连接。
- URL：Spark 服务器的 URL。
您可以选择设置：
- 每个项目：选择仅为当前项目启用这些连接设置。如果您希望此连接在其他项目中可见，请取消选择它。
- 启用连接：如果要禁用此连接，请取消选择。默认情况下，启用新创建的连接。
- 启用隧道：创建到远程主机的 SSH 隧道。如果目标服务器位于专用网络中，但与网络中的主机的 SSH 连接可用，那么它会很有用。
  选中该复选框并指定 SSH 连接的配置（单击...以创建新的 SSH 配置）。
- 启用 HTTP 基本身份验证：使用指定的用户名和密码进行 HTTP 身份验证的连接。
- 代理：选择是否要使用IDE 代理设置或是否要指定自定义代理设置。
填写设置后，单击测试连接以确保所有配置参数正确。然后单击“确定”。

使用正在运行的作业与 Zeppelin 建立连接

如果您有Zeppelin插件，则可以通过从 Zeppelin 笔记本打开 Spark 作业来快速连接到 Spark 服务器。

在涉及 Spark 的 Zeppelin 笔记本中，运行一个段落。
单击打开作业链接。在打开的通知中，单击更多| 创建连接链接。
如果您已连接到运行作业的 Spark 历史记录服务器，请单击选择连接并从列表中选择它。
在打开的“大数据工具”对话框中，验证连接设置并单击“测试连接”。如果连接成功，单击“确定”完成配置。

建立与 Spark 服务器的连接后，将出现Spark 监控工具窗口。

Spark 监控：作业

您可以随时通过以下方式之一打开连接设置：

转到工具| 大数据工具设置页面的IDE设置。CtrlAlt0S
打开大数据工具工具窗口（视图 | 工具窗口 | 大数据工具），选择 Spark 连接，然后单击。
单击Spark 监控工具窗口任意选项卡中的。

当您在Spark监控工具窗口中选择某个应用程序时，您可以使用以下选项卡来监控数据：

Info：有关已提交应用程序的高级信息，例如 App id 或 Attempt id。
职位：申请职位的摘要。单击某个职位可查看其更多详细信息。使用“可视化”选项卡查看作业 DAG。
阶段：每个阶段的详细信息。
环境：环境和配置变量的值。
执行器：为应用程序启动的进程，用于运行任务并将数据保存在内存或磁盘存储中。
存储：持久化 RDD 和 DataFrame。
SQL：有关 SQL 查询执行的详细信息（如果应用程序使用）。

您还可以预览有关任务的信息，即发送给一个执行者的工作单元。

有关数据类型的更多信息，请参阅Spark 文档。

从 DAG 图导航到源代码

DAG（有向无环图）表示 Spark 作业的逻辑执行计划。就像在 Spark UI 中一样，您可以可视化 Spark 作业的 DAG。使用 IntelliJ IDEA，您还可以快速从 DAG 导航到源文件中相应的代码段。

打开Spark监控工具窗口：查看| 工具窗口 | 火花。
选择一个应用程序并打开“作业”选项卡。
在可视化列中，单击显示。
这将在新的编辑器选项卡中打开作业可视化。
在图表中，双击任意操作。

您将被重定向到您的源代码文件，进行相应的操作。

/help/img/idea/2023.2/spark_dag.png

过滤掉监控数据

在Spark监控工具窗口中，使用以下过滤器来过滤应用程序：
- 过滤器：输入应用程序名称或 ID。
- 限制：更改显示的应用程序的限制或选择全部以显示所有应用程序。
- 已开始：按开始时间过滤应用程序或选择任意。
- 已完成：按完成时间过滤申请或选择“任意”。
- ：仅显示正在运行或已完成的应用程序。
在Jobs、Stages和SQL选项卡中，您还可以按状态过滤数据。

您随时可以在Spark监控工具窗口中单击，手动刷新监控数据。或者，您可以使用“刷新”按钮旁边的列表配置在特定时间间隔内自动更新。

感谢您的反馈意见！

此页面是否有帮助？

最终的
火花监测
连接到 Spark 服务器
使用正在运行的作业与 Zeppelin 建立连接
从 DAG 图导航到源代码
过滤掉监控数据

也可以看看

外部链接

Spark集群术语表

在 Spark集群上创建并运行 Spark 应用程序提交运行配置

什么是新的
问题跟踪器
提交支持请求

版权所有 © 2000–2023 JetBrains s.r.o.