Big Data Tools 플러그인 업데이트: Spark, HDFS, Parquet 지원 및 기타 다양한 기능 제공

마지막 업데이트 이후로 오랜 시간이 지났습니다. 기억하실지 모르겠지만 작년에 저희는 IntelliJ IDEA와 Apache Zeppelin, S3와의 통합, 그리고 Apache Spark와의 실험적 통합을 발표했습니다. Apache Spark와의 통합 제품은 실험적인 기능으로 출시되어 불안정한 업데이트 채널에서만 사용할 수 있었습니다. 하지만 좋은 소식이 있습니다. 오늘 드디어 Spark 지원을 공개적으로 제공하는 새로운 버전의 플러그인이 출시됩니다. 이 버전에서는 HDFS 및 Parquet도 지원됩니다.

Spark 모니터링

Spark 통합 제품이 공개 업데이트로 제공되었으며, 그 기능에 관해 간략하게 알려 드리겠습니다.

Spark 작업을 모니터링하려면 다음과 같이 Big Data Tools Connections(연결) 설정으로 이동하여 Spark History Server의 URL을 추가하기만 하면 됩니다.

추가하고 나서 설정을 닫고 IDE 창의 우측 하단에 있는 Spark 도구 창을 여세요. Spark 도구 창은 완료되거나 실행 중인 Spark 애플리케이션 목록(Applications(애플리케이션) 탭에 있으며 기본적으로 접혀 있음)과 작업 목록, 세부 작업을 표시합니다.

Executors(실행자) 탭을 클릭하면 활성 및 비활성화된 실행자에 관한 정보를 다음과 같이 확인할 수 있습니다.

현재 SQL 탭에는 최근 검색어 목록이 표시되지만 실제 SQL은 아직 포함되지 않습니다. 또한 Spark와 함께 Kerberos를 사용하는 경우 IDE에서 서버 연결을 허용하지 않을 수 있습니다. 이 문제는 다음 업데이트 중에서 해결되도록 작업하고 있습니다. Kerberos를 사용하고 계신 경우 알려주시면 이 작업을 다른 것보다 우선순위에 두겠습니다.

HDFS

12월에 도입한 S3 지원과 마찬가지로 이제 이 플러그인을 통해 HDFS 서버에 연결하여 IDE에서 파일을 탐색하고 관리할 수 있습니다. 이 기능을 사용하려면 다음과 같이 Big Data Tools Connections(연결) 설정으로 이동하여 HDFS 구성을 추가하면 됩니다.

현재는 루트 경로와 서버에 연결하는 방법(구성 파일 디렉터리 또는 명시적 URI)을 지정해야 합니다.

HDFS 서버를 구성하면 Big Data Tools 도구 창에 해당 서버가 다음과 같이 표시됩니다(구성한 경우 Apache Zeppelin Notebook 및 S3 버킷 옆에 표시됨).

Big Data Tools 도구 창에는 구성된 서버에 저장된 파일 및 폴더가 표시됩니다. S3의 경우와 마찬가지로 HDFS의 CSV 및 Parquet 파일을 트리에서 확장하여 파일 스키마를 표시할 수 있습니다. 파일 또는 폴더에서 컨텍스트 메뉴를 실행하면 다양한 액션이 제공됩니다.

이 옵션을 사용하면 에디터에서 파일을 관리하거나 로컬 컴퓨터로 복사하거나 미리 볼 수 있습니다. 미리보기를 사용하면 파일 내용을 컴퓨터에 완전히 복사하지 않고도 파일 내용의 첫 번째 청크를 볼 수 있습니다.

Parquet

위에서 언급했듯이 이번 업데이트에서는 Parquet 파일에 대한 조기 지원을 제공합니다. 이제 IDE에서 Parquet 파일을 열고 그 내용을 다음과 같이 테이블로 볼 수 있습니다.

Parquet 파일을 열면 플러그인에서 전체 내용이 아닌 첫 번째 부분만 표시합니다. 이는 매우 큰 파일로 작업할 때 특히 유용합니다.

Spark와 마찬가지로 파일에 액세스하려면 서버에 물리적으로 액세스해야 합니다. 즉, 서버가 SSH 터널 뒤에 있는 경우 터널을 직접 설정해야 합니다. 파일에 액세스할 때 문제나 불편한 사항이 있는 경우 알려주세요. 여러분께서 알려주시지 않으면, 저희는 아직 지원되지 않는 특정 시나리오를 인지하지 못할 수 있습니다. 의견을 빨리 제공해 주실수록 좋습니다.

오늘은 여기까지입니다. 지금까지 업데이트 정보는 Scala 블로그에도 게시되었으며 이 글은 IntelliJ IDEA 블로그에 처음으로 게시된 업데이트 소식입니다. 게시 위치가 바뀐 이유는 이제 이 플러그인에서 Apache Zeppelin과 Scala 지원만 제공하는 것이 아니라 빅데이터 작업을 위한 훨씬 다양한 도구를 통합하기 때문입니다.

이 업데이트에서 작업된 전체 버그 수정 목록을 확인하려면 릴리스 정보를 확인해주세요.

마지막으로 플러그인 기능의 사용 방법에 관한 도움이 필요하신 경우 문서를 확인해 주세요. 그래도 여전히 도움이 필요하신가요? 이곳의 댓글이나 Twitter에서 언제든지 메시지를 남겨 주세요.

P.S.: 이 플러그인은 아직 개발 초기 단계에 있으므로 여러 통합 기능에서 모든 시나리오를 지원하지 않을 수 있습니다. 그렇기 때문에 지금 여러분의 의견이 매우 필요합니다. 중요한 사용자 시나리오(예: 특정 인증 유형 또는 기타 특정 상황)가 지원되지 않는 것을 확인하신 경우 이곳의 댓글, 이슈 트래커 또는 의견 설문조사를 통해 알려주세요.

본문은 Andrey CheptsovUpdate on Big Data Tools Plugin: Spark, HDFS, Parquet and More를 번역하여 기재한 글입니다.

image description

Discover more