Mise à jour du plugin Big Data Tools : Spark, HDFS, Parquet et plus

Publié le par Delphine Massenhove

Notre dernière mise à jour remonte déjà à quelque temps. Vous vous souvenez peut-être que nous avons annoncé l’année dernière l’intégration d’IntelliJ IDEA avec Apache Zeppelin, S3, et son intégration expérimentale avec Apache Spark. Cette dernière intégration avait été proposée sous forme de fonctionnalité expérimentale et n’était disponible que sur le canal des mises à jour non stables. Mais nous avons d’excellentes nouvelles : la nouvelle version du plugin rend la prise en charge de Spark totalement disponible publiquement. Cette nouvelle version prend également en charge HDFS et Parquet.

Suivi de Spark

Maintenant que l’intégration avec Spark est disponible en mise à jour publique, permettez-nous de vous rappeler ses avantages.

Pour le suivi de vos jobs Spark, il vous suffit maintenant d’accéder aux paramètres Big Data Tools Connections et d’ajouter l’URL de votre serveur d’historique Spark :

Une fois cette opération terminée, fermez les paramètres et ouvrez la fenêtre d’outils Spark en bas à droite de l’EDI. La fenêtre d’outils Spark affiche la liste des applications Spark terminées et en cours d’exécution (dans l’onglet Applications, qui est réduit par défaut), la liste des jobs, leur état, et leurs tâches.

En cliquant sur l’onglet Executor, vous pourrez voir les informations sur les agents d’exécution actifs et non actifs :

Pour le moment, l’onglet SQL affiche une liste des requêtes récentes, mais elle n’inclut pas encore le SQL en tant que tel. De plus, si vous utilisez Kerberos avec Spark, il se peut que l’EDI ne vous permette pas de vous connecter au serveur. Nous travaillons actuellement sur ce point afin que le problème soit corrigé dans l’une de nos prochaines mises à jour. Si vous utilisez Kerberos, n’hésitez pas à nous le faire savoir, afin que nous traitions ce problème en priorité.

HDFS

Tout comme pour la prise en charge de S3 que nous avons annoncée en décembre, le plugin vous permet désormais de vous connecter à vos serveurs HDFS pour explorer et gérer vos fichiers depuis l’EDI. Pour activer cette fonctionnalité, il vous suffit d’aller dans les paramètres Big Data Tools Connections pour ajouter une configuration HDFS :

Il vous faudra spécifier le chemin de la racine et le mode de connexion au serveur : Configuration Files Directory ou Explicit URI.

Une fois les serveurs HDFS configurés, vous les verrez s’afficher dans la fenêtre d’outils Big Data Tools (à côté de vos notebooks Apache Zeppelin et de vos buckets S3, si vous en avez configurés) :

La fenêtre d’outils Big Data Tools affiche les fichiers et dossiers qui sont stockés dans les serveurs configurés. Comme pour S3, les fichiers CSV et Parquet dans HDFS peuvent être développés dans l’arborescence pour afficher leurs schémas de fichiers. Le menu contextuel associé aux fichiers ou dossiers propose plusieurs actions :

Ces options vous permettent de gérer des fichiers, de les copier sur votre machine locale, ou de les prévisualiser dans l’éditeur. La prévisualisation vous permet de consulter la première partie du contenu du fichier sans avoir à le copier entièrement sur votre machine.

Parquet

Comme indiqué plus haut, cette mise à jour fournit une prise en charge initiale pour les fichiers Parquet. Vous pouvez maintenant ouvrir vos fichiers Parquet dans l’EDI et consulter leur contenu sous forme de tableau :

Lors de l’ouverture de fichiers Parquet, le plugin n’en affiche pas l’intégralité mais seulement la première partie. Cela est particulièrement utile si vous travaillez avec de très gros fichiers.

Notez que, tout comme pour Spark, vous avez besoin d’un accès physique aux serveurs pour accéder aux fichiers. Cela signifie que si vos serveurs sont derrière un tunnel SSH, vous devez établir le tunnel vous-même. Nous vous invitons à nous signaler tout problème ou incident rencontré lors de l’accès à vos fichiers. Cela nous permettra d’identifier d’éventuels scénarios spécifiques qui ne seraient pas encore pris en charge. Plus tôt vous nous ferez part de vos retours, plus vite nous pourrons identifier et traiter les problèmes !

Pour voir la liste complète des correctifs de bugs de cette mise à jour, veuillez vous reporter aux notes de publication.

Si vous avez besoin d’aide pour utiliser une fonctionnalité du plugin, veuillez consulter la documentation. Vous avez toujours besoin d’aide ? N’hésitez pas à nous laisser un message, soit ici dans les commentaires, soit sur Twitter.

P.S. : Comme le plugin n’en est encore qu’aux premières étapes de son développement, il est probable que ses intégrations ne prennent pas en charge toute la diversité des scénarios. C’est pourquoi nous comptons particulièrement sur vos retours d’expérience. Si vous constatez qu’un scénario utilisateur important (par exemple un certain type d’autorisation) n’est pas pris en charge, n’hésitez pas à nous l’indiquer, ici dans les commentaires, dans notre outil de suivi des tickets, ou dans notre enquête.

Auteur de l’article original en anglais : Andrey Cheptsov