大数据工具插件更新:Spark、HDFS、Parquet 等等
自我们上次更新以来已经有一段时间了。如果您还记得的话,我们去年宣布了 IntelliJ IDEA 与 Apache Zeppelin、S3 的集成以及与 Apache Spark 的实验性集成。后者的集成作为实验功能发布,仅在非稳定的更新渠道中可用。但是我们有一些好消息!今天,我们发布了该插件的新版本,使 Spark 支持终于公开可用。它还增加了对 HDFS 和 Parquet 的支持。
Spark 监控
现在,Spark 集成已在公共更新中提供,让我们快速了解它可以为您做什么。
为了能够监视您的 Spark 作业,现在要做的就是转到 Big Data Tools Connections 设置并添加 Spark History Server 的 URL:
完成此操作后,关闭设置并打开 IDE 窗口右下方的 Spark 工具窗口。Spark 工具窗口显示已完成且正在运行的 Spark 应用程序列表(这是 “Applications” 选项卡,默认情况下处于折叠状态)、作业列表、其阶段和任务。
通过点击 “Executors” 选项卡,您将看到有关活动和非活动执行者的信息:
目前,“SQL” 选项卡显示了最近查询的列表,但尚未包括实际的 SQL。此外,如果您将 Kerberos 与 Spark 一起使用,则 IDE 可能不允许您连接到服务器。我们正努力在下一个更新中解决此问题。如果您使用 Kerberos,请告知我们,我们会优先执行此任务。
HDFS
与我们在 12 月引入的 S3 支持类似,该插件现在允许您连接到 HDFS 服务器以从 IDE 浏览和管理文件。要启用此功能,只需转到 “Big Data Tools Connections” 设置并添加 HDFS 配置:
当前,您必须指定根路径和连接到服务器的方式:“Configuration Files Directory” 或 “Explicit URI”。
配置完 HDFS 服务器后,您会看到它们出现在 Big Data Tools 工具窗口中(当然,如果配置了 Apache Zeppelin 笔记本和 S3 存储桶,则它们旁边):
“Big Data Tools” 工具窗口显示存储在已配置服务器中的文件和文件夹。与 S3 一样,HDFS 中的 CSV 和 Parquet 文件可以在树中展开以显示其文件模式。在任何文件或文件夹上调用的上下文菜单提供了多种操作:
这些选项使您可以管理文件、将文件复制到本地计算机或在编辑器中预览。通过预览,您可以查看文件内容的第一部分,而无需将其完全复制到计算机中。
Parquet
如上所述,此更新引入了对 Parquet 文件的初始支持。现在,您可以在 IDE 中打开任何 Parquet 文件,并以表的形式查看其内容:
打开 Parquet 文件时,插件仅显示第一部分,而不显示全部内容。当您处理非常大的文件时,这特别有用。
请注意,就像使用 Spark 一样,您需要对服务器进行物理访问才能访问文件。这意味着,如果您的服务器位于 SSH 隧道之后,则当前必须自己建立隧道。如果您在访问文件时遇到任何问题或不便,请务必告知我们。否则,我们可能不知道尚不支持的特定情况。您越早提供反馈,越好!
今天的文章就到这里了。您可能还注意到,到目前为止,我们已经在 Scala 博客中发布了更新信息,这是 IntelliJ IDEA 博客中发布的第一个更新。我们这样做是因为现在该插件不再仅提供 Apache Zeppelin 和 Scala 支持。相反,它集成了各种各样的工具来处理大数据。
要查看此更新中的错误修复的完整列表,请参阅版本说明。最后,如果您需要有关如何使用插件的任何功能的帮助,请务必查看文档。还需要帮助吗?请在意见部分中或 通过我们的官方微信给我们留言。
附注:由于该插件仍处于开发的早期阶段,因此其许多集成可能无法支持所有各种情况。所以,我们目前非常依赖您的反馈。如果您发现重要的用户方案不支持(例如某种授权类型或某些其他特定要求),请在意见部分、问题跟踪器或反馈调查中告知我们。
原文发表于 2020 年 2 月 25 日,作者 Andrey Cheptsov