运行笔记本并分析数据
最后修改时间:2023 年 10 月 26 日要预览和分析数据集,您需要运行笔记本的可执行段落。
跑步笔记本
您可以逐一运行段落或一次运行所有段落。执行任何段落时,请注意代码依赖性。例如,如果当前段落依赖于上一段中初始化的变量,则需要先执行。
单击笔记本编辑器工具栏上的 可以执行笔记本的所有段落,以及当前段落上方或下方的所有段落。执行进度将显示在工具栏上。
单击装订线中的图标可执行笔记本的特定段落。
执行完成后,执行状态将显示在工具栏和装订线中:
: 执行已成功完成
您可以单击此图标再次执行该段落。
: 执行失败
: 执行已中止
笔记
您可以在执行时间超过指定限制时启用通知。
如果成功执行,请预览段落代码下方显示的输出。
例如,当段落包含启动Spark作业的任何RDD 操作或方法时, Spark作业链接将显示在预览区域中。单击此链接可打开Spark 监控工具窗口并预览完成状态、事件时间线和 DAG 可视化。count
saveAsTextFile
您可以在笔记本中选择 Spark 作业代码并将其提取到 Scala 文件中以供进一步使用。
提取 Spark 作业
在笔记本中选择 Spark 作业代码片段。
右键单击所选代码并选择“重构”| 从上下文菜单中提取 Spark 作业。
指定 Scala 文件名及其在文件系统中的位置,然后确认您的选择。包含提取作业的指定文件出现在单独的编辑器选项卡中。
刷新口译员
当您执行笔记本的代码时,您可能需要在目标 Zeppelin 服务器上重新启动解释器。为了您的方便,IntelliJ IDEA 提供了多种选项来执行此操作:
单击笔记本工具栏上的 。
右键单击装订线中的“运行”图标,然后选择“重新启动解释器”。
右键单击编辑器中的任意段落,然后从上下文菜单中选择重新启动解释器。
当您执行 SQL 语句或运行show
Zeppelin 或 Spark 对象的方法时,结果将显示在预览区域的“表”和“图表”选项卡中。
查看输出
如果您的笔记本处理数据收集,您可以以表格和图形形式预览输出。您可以通过选择表格、图表或拆分视图来管理输出演示。将鼠标悬停在段落输出的右侧即可查看相应的控件。
整理表中的数据
单击列标题可对其中的值进行排序。
单击可过滤所选列中的数据。
单击可按页面组织表格。切换此按钮并指定要在页面上显示的表格行数:10、15、30 或 100。
单击并选择要在表中显示的列。
导出表
单击可将表保存在.csv文件中。
输入文件名并单击“保存”。
图表的默认类型由服务器上的图表设置定义。但是,您可以配置和修改预定义的图表类型。
配置图表
单击可更改图表的初始设置。
单击与图表类型相对应的任何图标,将绘制新图表。例如,单击添加新的散点图。
将要绘制的列拖到特定字段:
单击添加新系列链接可将更多系列添加到图表中。然后将所需列拖至目标字段以设置轴。
导出图表
单击以.png格式保存生成的图形输出。
输入文件名并单击“保存”。
配置图表设置
要定义图表的外观,请单击图表工具栏(输出区域的右侧)。
选择对比度或默认主题。单击可修改主题颜色。此外,您还可以单击克隆主题并稍后进行自定义。
在预览区域中查看修改的设置并保存更改。
使用状态查看器查看运行时数据
状态查看器允许您预览当前 Zeppelin 会话的局部变量和 SQL 模式。它在 Zeppelin 服务器和 IDE 之间建立协议,提供运行时信息以获取有关变量的更多详细信息,并提供智能编码帮助。
使用状态查看器
在Zeppelin 连接设置中,确保选中启用状态查看器集成复选框。
如果您想要微调状态查看器设置,请单击“显示状态查看器设置”。
打开目标 Zeppelin 服务器上的任意笔记本并执行任意段落来收集数据。
笔记
或者,您可以在项目中创建本地 Zeppelin 笔记本并将其链接到配置的连接。
执行该段落后,状态查看器工具窗口将打开。您可以在笔记本工具栏中查看状态查看器同步状态。
在状态查看器工具窗口中,您可以预览变量的值并展开分层数据。您可以右键单击任何变量以打开上下文菜单,并使用“检查...”命令在单独的窗口中检查该变量,或以文本形式预览其值(“查看文本”)。
您可以随时点击与服务器同步。
如果您关闭了“状态查看器”工具窗口,则可以快速重新打开它:单击Zeppelin 笔记本顶部的 并选择“打开状态查看器窗口”。
借助状态查看器提供的编码帮助,您可以完成 SQL 表和 Scala 数据帧中列的准确名称。您还可以检查列的名称是否不包含任何错误(例如,引用不存在的列)。开始输入与列名称匹配的任何模式,您应该会看到代码完成:
状态查看器设置
您可以通过以下任一方式访问状态查看器设置:
如果您要启动 Zeppelin 连接,则可以打开Zeppelin 连接窗口中的显示状态查看器设置部分。
如果您已经建立了 Zeppelin 连接,则可以通过单击状态查看器工具窗口来打开状态查看器设置。
常见内省器设置 |
|
变量内省器设置 |
|
SQL 内省器设置 |
|
故障排除
如果笔记本或特定段落的执行失败,请查看错误消息并考虑一些典型的故障排除操作:
问题 | 建议操作 |
---|---|
笔记本工具栏不可用。显示以下警告消息: | 单击“尝试重新连接”链接以使笔记本电脑连接到服务器。 |
服务器连接丢失。对应的图标显示服务器的断开状态: | 单击可重新建立与服务器的连接。 |
口译员会话已过期。例如,错误消息报告 Spark 会话已过期。 | 单击笔记本工具栏控件并重新启动有问题的解释器。 |
感谢您的反馈意见!