运行笔记本并分析数据
最后修改时间:2023 年 10 月 26 日要预览和分析数据集,您需要运行笔记本的可执行段落。
跑步笔记本
您可以逐一运行段落或一次运行所有段落。执行任何段落时,请注意代码依赖性。例如,如果当前段落依赖于上一段中初始化的变量,则需要先执行。
单击
笔记本编辑器工具栏上的 可以执行笔记本的所有段落,以及当前段落上方或下方的所有段落。执行进度将显示在工具栏上。
单击
装订线中的图标可执行笔记本的特定段落。
执行完成后,执行状态将显示在工具栏和装订线中:
: 执行已成功完成
您可以单击此图标再次执行该段落。
: 执行失败
: 执行已中止
笔记
您可以在执行时间超过指定限制时启用通知。
如果成功执行,请预览段落代码下方显示的输出。

例如,当段落包含启动Spark作业的任何RDD 操作或方法时, Spark作业链接将显示在预览区域中。单击此链接可打开Spark 监控工具窗口并预览完成状态、事件时间线和 DAG 可视化。count
saveAsTextFile
您可以在笔记本中选择 Spark 作业代码并将其提取到 Scala 文件中以供进一步使用。
提取 Spark 作业
在笔记本中选择 Spark 作业代码片段。
右键单击所选代码并选择“重构”| 从上下文菜单中提取 Spark 作业。
指定 Scala 文件名及其在文件系统中的位置,然后确认您的选择。包含提取作业的指定文件出现在单独的编辑器选项卡中。
刷新口译员
当您执行笔记本的代码时,您可能需要在目标 Zeppelin 服务器上重新启动解释器。为了您的方便,IntelliJ IDEA 提供了多种选项来执行此操作:
单击
笔记本工具栏上的 。
右键单击装订线中的“运行”图标,然后选择“重新启动解释器”。
右键单击编辑器中的任意段落,然后从上下文菜单中选择重新启动解释器。
当您执行 SQL 语句或运行show
Zeppelin 或 Spark 对象的方法时,结果将显示在预览区域的“表”和“图表”选项卡中。
查看输出
如果您的笔记本处理数据收集,您可以以表格和图形形式预览输出。您可以通过选择表格、图表或拆分视图来管理输出演示。将鼠标悬停在段落输出的右侧即可查看相应的控件。

整理表中的数据
单击列标题可对其中的值进行排序。
单击
可过滤所选列中的数据。
单击
可按页面组织表格。切换此按钮并指定要在页面上显示的表格行数:10、15、30 或 100。
单击
并选择要在表中显示的列。

导出表
单击
可将表保存在.csv文件中。
输入文件名并单击“保存”。
图表的默认类型由服务器上的图表设置定义。但是,您可以配置和修改预定义的图表类型。
配置图表
单击
可更改图表的初始设置。
单击与图表类型相对应的任何图标,将绘制新图表。例如,单击
添加新的散点图。
将要绘制的列拖到特定字段:
动图单击添加新系列链接可将更多系列添加到图表中。然后将所需列拖至目标字段以设置轴。
导出图表
单击以.png
格式保存生成的图形输出。
输入文件名并单击“保存”。
配置图表设置
要定义图表的外观,请单击
图表工具栏(输出区域的右侧)。
选择对比度或默认主题。单击
可修改主题颜色。此外,您还可以单击
克隆主题并稍后进行自定义。
在预览区域中查看修改的设置并保存更改。
使用状态查看器查看运行时数据
状态查看器允许您预览当前 Zeppelin 会话的局部变量和 SQL 模式。它在 Zeppelin 服务器和 IDE 之间建立协议,提供运行时信息以获取有关变量的更多详细信息,并提供智能编码帮助。
使用状态查看器
在Zeppelin 连接设置中,确保选中启用状态查看器集成复选框。
如果您想要微调状态查看器设置,请单击“显示状态查看器设置”。
打开目标 Zeppelin 服务器上的任意笔记本并执行任意段落来收集数据。
笔记
或者,您可以在项目中创建本地 Zeppelin 笔记本并将其链接到配置的连接。
执行该段落后,状态查看器工具窗口将打开。您可以在笔记本工具栏中查看状态查看器同步状态。
在状态查看器工具窗口中,您可以预览变量的值并展开分层数据。您可以右键单击任何变量以打开上下文菜单,并使用“检查...”命令在单独的窗口中检查该变量,或以文本形式预览其值(“查看文本”)。
您可以随时点击
与服务器同步。
如果您关闭了“状态查看器”工具窗口,则可以快速重新打开它:单击
Zeppelin 笔记本顶部的 并选择“打开状态查看器窗口”。
借助状态查看器提供的编码帮助,您可以完成 SQL 表和 Scala 数据帧中列的准确名称。您还可以检查列的名称是否不包含任何错误(例如,引用不存在的列)。开始输入与列名称匹配的任何模式,您应该会看到代码完成:

状态查看器设置
您可以通过以下任一方式访问状态查看器设置:
如果您要启动 Zeppelin 连接,则可以打开Zeppelin 连接窗口中的显示状态查看器设置部分。
如果您已经建立了 Zeppelin 连接,则可以通过单击状态查看器工具窗口来打开状态查看
器设置。
常见内省器设置 |
|
变量内省器设置 |
|
SQL 内省器设置 |
|
故障排除
如果笔记本或特定段落的执行失败,请查看错误消息并考虑一些典型的故障排除操作:
问题 | 建议操作 |
---|---|
笔记本工具栏不可用。显示以下警告消息: | 单击“尝试重新连接”链接以使笔记本电脑连接到服务器。 |
服务器连接丢失。对应的图标显示服务器的断开状态: ![]() | 单击 |
口译员会话已过期。例如,错误消息报告 Spark 会话已过期。 | 单击 |
感谢您的反馈意见!