{"id":536946,"date":"2025-01-10T17:43:25","date_gmt":"2025-01-10T16:43:25","guid":{"rendered":"https:\/\/blog.jetbrains.com\/?post_type=pycharm&#038;p=536946"},"modified":"2025-01-10T17:43:52","modified_gmt":"2025-01-10T16:43:52","slug":"etat-de-la-science-des-donnees-2024-6-tendances-cles","status":"publish","type":"pycharm","link":"https:\/\/blog.jetbrains.com\/fr\/pycharm\/2025\/01\/etat-de-la-science-des-donnees-2024-6-tendances-cles\/","title":{"rendered":"\u00c9tat de la Science des Donn\u00e9es 2024 : 6 tendances cl\u00e9s"},"content":{"rendered":"<figure class=\"wp-block-image size-full\"><img decoding=\"async\" loading=\"lazy\" class=\"alignnone wp-image-537242 size-full\" src=\"https:\/\/blog.jetbrains.com\/wp-content\/uploads\/2025\/01\/pc-featured_blog_1280x720_fr-1.png\" alt=\"\" width=\"2560\" height=\"1440\" \/><\/figure>\n<p>L&#8217;IA g\u00e9n\u00e9rative et les LLM ont fait la une cette ann\u00e9e, mais ont-ils eu un v\u00e9ritable impact sur les tendances en mati\u00e8re de science des donn\u00e9es et de machine learning ? Quelles sont les nouvelles tendances de la science des donn\u00e9es qui valent la peine d&#8217;\u00eatre suivies ? Tous les ans, JetBrains et la <a href=\"https:\/\/www.python.org\/\" target=\"_blank\" rel=\"noopener\">Python Software Foundation<\/a> m\u00e8nent une enqu\u00eate aupr\u00e8s des d\u00e9veloppeurs Python afin de collecter des informations qui aident \u00e0 r\u00e9pondre \u00e0 ce type de questions.<\/p>\n<p>Les <a href=\"https:\/\/lp.jetbrains.com\/fr-fr\/python-developers-survey-2023\/\" target=\"_blank\" rel=\"noopener\">r\u00e9sultats de la derni\u00e8re \u00e9dition de cette enqu\u00eate<\/a>, issus de r\u00e9ponses obtenues entre novembre 2023 et f\u00e9vrier 2024, incluaient une nouvelle section d\u00e9di\u00e9e \u00e0 la <a href=\"https:\/\/lp.jetbrains.com\/fr-fr\/python-developers-survey-2023\/#data-science\" target=\"_blank\" rel=\"noopener\">science des donn\u00e9es<\/a>. Cela nous a permis d&#8217;obtenir une meilleure vue d&#8217;ensemble des tendances de la science des donn\u00e9es au cours de l&#8217;ann\u00e9e derni\u00e8re et notamment de constater \u00e0 quel point Python restait important dans ce domaine.\u00a0<\/p>\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" loading=\"lazy\" class=\"wp-image-531518\" src=\"https:\/\/blog.jetbrains.com\/wp-content\/uploads\/2024\/11\/1-2x.png\" alt=\"Utilisation de Python par ann\u00e9e\" width=\"1700\" height=\"1188\" \/><\/figure>\n<p>Alors que 48 % des d\u00e9veloppeurs Python travaillent sur l&#8217;exploration et le traitement des donn\u00e9es, le pourcentage des r\u00e9pondants utilisant Python pour l&#8217;analyse de donn\u00e9es a baiss\u00e9, passant de 51 % en 2022 \u00e0 44 % en 2023. L&#8217;utilisation de Python pour le machine learning et quant \u00e0 elle pass\u00e9e de 36 % en 2022 \u00e0 34 % en 2023. Dans le m\u00eame temps, 27 % des r\u00e9pondants ont d\u00e9clar\u00e9 utiliser Python pour l&#8217;ing\u00e9nierie des donn\u00e9es, tandis que 8 % l&#8217;utilisent pour le MLOps, deux cat\u00e9gories qui ont fait leur apparition dans l&#8217;\u00e9dition 2023 de l&#8217;enqu\u00eate.\u00a0<\/p>\n<p>Examinons plus en d\u00e9tail les tendances r\u00e9v\u00e9l\u00e9es par l&#8217;enqu\u00eate pour les contextualiser et mieux comprendre ce qu&#8217;elles signifient. Poursuivez votre lecture pour en savoir plus sur les derniers d\u00e9veloppements dans les domaines de la science des donn\u00e9es et du machine learning pour vous bien vous pr\u00e9parer \u00e0 2025.<\/p>\n<h2 class=\"wp-block-heading\">Traitement des donn\u00e9es : pandas reste le premier choix, mais Polars gagne du terrain<\/h2>\n<p>Le traitement des donn\u00e9es est un aspect essentiel de la science des donn\u00e9es. <a href=\"https:\/\/pandas.pydata.org\/\" target=\"_blank\" rel=\"noopener\">pandas<\/a> est un projet qui a d\u00e9j\u00e0 15 ans, mais il demeure l&#8217;outil de traitement des donn\u00e9es le plus pris\u00e9. 77 % des r\u00e9pondants qui travaillent sur l&#8217;exploration et le traitement des donn\u00e9es d\u00e9clarent l&#8217;utiliser. En tant que projet mature, son API est stable et de nombreux exemples de code peuvent \u00eatre trouv\u00e9s sur Internet, il n&#8217;est donc pas surprenant qu&#8217;il soit le premier choix. En tant que projet sponsoris\u00e9 par <a href=\"https:\/\/numfocus.org\/\" target=\"_blank\" rel=\"noopener\">NumFOCUS<\/a>, pandas a d\u00e9montr\u00e9 qu&#8217;il \u00e9tait durable et son mod\u00e8le de gouvernance a gagn\u00e9 la confiance des utilisateurs. C&#8217;est un excellent choix pour les d\u00e9butants qui ne ma\u00eetrisent pas encore le traitement des donn\u00e9es, car il s&#8217;agit d&#8217;un projet stable qui n&#8217;est pas sujet \u00e0 des changements rapides.<\/p>\n<p>De son c\u00f4t\u00e9, <a href=\"https:\/\/pola.rs\/\" target=\"_blank\" rel=\"noopener\">Polars<\/a>, qui se pr\u00e9sente comme le DataFrames du futur, a \u00e9t\u00e9 au centre de l&#8217;attention l&#8217;an dernier et cette ann\u00e9e gr\u00e2ce \u00e0 ses atouts en termes de vitesse et de traitement parall\u00e8le. En 2023, une entreprise dirig\u00e9e par le cr\u00e9ateur de Polars, Ritchie Vink, <a href=\"https:\/\/pola.rs\/posts\/company-announcement\/\" target=\"_blank\" rel=\"noopener\">a \u00e9t\u00e9 cr\u00e9\u00e9e<\/a> afin d&#8217;accompagner la progression de ce projet et de permettre \u00e0 Polars de conserver un rythme de d\u00e9veloppement rapide. La version 1.0 de Polars <a href=\"https:\/\/pola.rs\/posts\/announcing-polars-1\/\" target=\"_blank\" rel=\"noopener\">a \u00e9t\u00e9 publi\u00e9e<\/a> en juillet 2024. Par la suite, Polars a \u00e9tendu sa compatibilit\u00e9 avec d&#8217;autres outils de science des donn\u00e9es populaires comme <a href=\"https:\/\/pola.rs\/posts\/polars-hugging-face\/\" target=\"_blank\" rel=\"noopener\">Hugging Face<\/a> et <a href=\"https:\/\/pola.rs\/posts\/gpu-engine-release\/\" target=\"_blank\" rel=\"noopener\">NVIDIA RAPIDS<\/a>. Il fournit \u00e9galement un backend l\u00e9ger pour g\u00e9n\u00e9rer des graphiques, tout comme pandas.<\/p>\n<p>Il peut donc \u00eatre int\u00e9ressant pour les professionnels de la science des donn\u00e9es de <a href=\"https:\/\/blog.jetbrains.com\/pycharm\/2024\/06\/how-to-move-from-pandas-to-polars\/\">passer \u00e0 Polars<\/a>. En gagnant en maturit\u00e9, il pourrait devenir un outil essentiel dans le workflow de science des donn\u00e9es et \u00eatre utilis\u00e9 pour traiter davantage de donn\u00e9es plus rapidement. Dans l&#8217;enqu\u00eate de 2023, 10 % des r\u00e9pondants disaient utiliser Polars comme outil de traitement des donn\u00e9es, il est donc probable que le nombre d&#8217;utilisateurs augmente encore \u00e0 l&#8217;avenir.<\/p>\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" loading=\"lazy\" class=\"wp-image-531530\" src=\"https:\/\/blog.jetbrains.com\/wp-content\/uploads\/2024\/11\/2-2x.png\" alt=\"Outils d'exploration et de traitement des donn\u00e9es\" width=\"1700\" height=\"1292\" \/><\/figure>\n<p>Que vous soyez un professionnel confirm\u00e9 ou que vous commenciez \u00e0 travailler sur votre premier jeu de donn\u00e9es, il est essentiel de disposer d&#8217;un outil efficace qui rende votre travail \u00e0 la fois plus productif et agr\u00e9able. Avec <a href=\"https:\/\/www.jetbrains.com\/fr-fr\/pycharm\/data-science\/\" target=\"_blank\" rel=\"noopener\">PyCharm<\/a> vous pouvez inspecter vos donn\u00e9es sous forme de tables interactives, que vous pouvez faire d\u00e9filer, trier, filtrer, convertir en graphiques ou utiliser pour g\u00e9n\u00e9rer des cartes thermiques. De plus, vous pouvez obtenir des r\u00e9sultats d&#8217;analyse pour chaque colonne et b\u00e9n\u00e9ficier de l&#8217;assistance par IA pour expliquer les DataFrames ou cr\u00e9er des visualisations. Cette fonctionnalit\u00e9 de PyCharm est disponible non seulement pour les dataframes pandas et Polars, mais aussi pour les jeux de donn\u00e9es Hugging Face, NumPy, PyTorch et TensorFlow.<\/p>\n<div class=\"buttons\">\n<div class=\"buttons__row\"><a class=\"btn\" href=\"https:\/\/www.jetbrains.com\/fr-fr\/pycharm\/data-science\/\" target=\"\" rel=\"noopener\">Essayez PyCharm gratuitement<\/a><\/div>\n<\/div>\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" loading=\"lazy\" class=\"wp-image-532499\" src=\"https:\/\/blog.jetbrains.com\/wp-content\/uploads\/2024\/12\/Screen-Recording-2024-09-29-at-12.05.11-1.gif\" alt=\"Une table interactive dans PyCharm 2024.2.2 Pro fournit des outils pour inspecter les DataFrames pandas et Polars\" width=\"2036\" height=\"880\" \/>\n<figcaption class=\"wp-element-caption\"><em>Une table interactive dans PyCharm 2024.2.2 Pro fournit des outils permettant d&#8217;inspecter les DataFrames pandas et Polars<\/em><\/figcaption>\n<\/figure>\n<p>La popularit\u00e9 de Polars a men\u00e9 \u00e0 la cr\u00e9ation d&#8217;un nouveau projet appel\u00e9 <a href=\"https:\/\/github.com\/narwhals-dev\/narwhals\" target=\"_blank\" rel=\"noopener\">Narwhals<\/a>. Ind\u00e9pendant de pandas et Polars, Narwhals vise \u00e0 unifier les API de ces deux outils (et de nombreux autres). Comme il s&#8217;agit d&#8217;un projet tr\u00e8s r\u00e9cent (d\u00e9but\u00e9 en f\u00e9vrier 2024), il n&#8217;appara\u00eet pas encore sur notre liste des outils de traitement des donn\u00e9es les plus populaires, mais nous pensons qu&#8217;il devrait y figurer dans quelques ann\u00e9es.<\/p>\n<p><a href=\"https:\/\/spark.apache.org\/docs\/latest\/api\/python\/index.html\" target=\"_blank\" rel=\"noopener\">Spark<\/a> (16 %) et <a href=\"https:\/\/www.dask.org\/\" target=\"_blank\" rel=\"noopener\">Dask<\/a> (7 %), qui permettent de traiter de gros volumes de donn\u00e9es gr\u00e2ce \u00e0 leurs processus de traitement parall\u00e8le. La mise en place de ces outils requiert des capacit\u00e9s d&#8217;ing\u00e9nierie un peu plus avanc\u00e9es, mais dans la mesure o\u00f9 la quantit\u00e9 de donn\u00e9es dont d\u00e9pendent les projets d\u00e9passe de plus en plus ce qu&#8217;un programme Python traditionnel peut g\u00e9rer, ils seront amen\u00e9s \u00e0 prendre de l&#8217;importance et leur taux d&#8217;utilisation pourrait augmenter.<\/p>\n<h2 class=\"wp-block-heading\">Visualisation des donn\u00e9es : HoloViz Panel va-t-il supplanter Plotly Dash et Streamlit au cours de l&#8217;ann\u00e9e prochaine ?<\/h2>\n<p>L&#8217;un des principaux r\u00f4les des data scientists est de cr\u00e9er des rapports et d&#8217;expliquer leurs d\u00e9couvertes et conclusions au regard des enjeux et des probl\u00e9matiques strat\u00e9giques de l&#8217;entreprise. Plusieurs outils de visualisation de tableaux de bord interactifs ont \u00e9t\u00e9 d\u00e9velopp\u00e9s pour travailler avec Python. D&#8217;apr\u00e8s les r\u00e9sultats de notre enqu\u00eate, le plus populaire d&#8217;entre eux est Plotly Dash.<\/p>\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" loading=\"lazy\" class=\"wp-image-531541\" src=\"https:\/\/blog.jetbrains.com\/wp-content\/uploads\/2024\/11\/3-2x.png\" alt=\"Biblioth\u00e8ques pour cr\u00e9er des tableaux de bord\" width=\"1700\" height=\"1222\" \/><\/figure>\n<p>Au sein de la communaut\u00e9 de la science des donn\u00e9es, <a href=\"https:\/\/plotly.com\/\" target=\"_blank\" rel=\"noopener\">Plotly<\/a> est surtout connu pour <a href=\"https:\/\/plotly.com\/ggplot2\/\" target=\"_blank\" rel=\"noopener\">ggplot2<\/a>, une biblioth\u00e8que de visualisation tr\u00e8s populaire parmi les utilisateurs du langage R. Mais avec la croissance de l&#8217;utilisation de Python pour la science des donn\u00e9es, Plotly a \u00e9galement fourni une biblioth\u00e8que Python qui offre une exp\u00e9rience similaire \u00e0 celle de ggplot2 en Python. Ces derni\u00e8res ann\u00e9es, <a href=\"https:\/\/dash.plotly.com\/\" target=\"_blank\" rel=\"noopener\">Dash<\/a>, choisir un framework Python pour cr\u00e9er des applications web r\u00e9actives d\u00e9velopp\u00e9es par Plotly est devenu une \u00e9vidence pour toutes les personnes qui ont l&#8217;habitude d&#8217;utiliser Plotly et doivent cr\u00e9er un tableau de bord interactif. Cependant, l&#8217;API de Dash requiert une connaissance de base des \u00e9l\u00e9ments utilis\u00e9s dans le code HTML pour la conception de la mise en page d&#8217;une application. Pour les utilisateurs qui ont peu ou pas d&#8217;exp\u00e9rience du frontend, cela peut constituer un obstacle \u00e0 une utilisation efficace de Dash.<\/p>\n<p>Streamlit, <a href=\"https:\/\/www.snowflake.com\/en\/blog\/snowflake-to-acquire-streamlit\/\" target=\"_blank\" rel=\"noopener\">qui est maintenant associ\u00e9 \u00e0 Snowflake<\/a>, arrive second dans la cat\u00e9gorie \u00ab meilleur tableau de bord de visualisation \u00bb. Cet outil est plus r\u00e9cent que Plotly, mais il monte en puissance depuis quelques ann\u00e9es, car il est facile \u00e0 utiliser et inclut un outil de ligne de commande. Bien que Streamlit ne soit pas aussi personnalisable que Plotly, ses pr\u00e9sentations de tableaux de bord sont assez faciles \u00e0 cr\u00e9er et il prend en charge les applications multipages, ce qui permet de concevoir des applications plus complexes.<\/p>\n<p>Cependant, dans les r\u00e9sultats de 2024, ces chiffres pourraient l\u00e9g\u00e8rement changer. De nouveaux outils \u00e9mergents pourraient rattraper, voire surpasser ces applications en termes de popularit\u00e9. L&#8217;un d&#8217;entre eux est <a href=\"https:\/\/panel.holoviz.org\/index.html\" target=\"_blank\" rel=\"noopener\">HoloViz Panel<\/a>. Il s&#8217;agit de l&#8217;une des biblioth\u00e8ques de l&#8217;\u00e9cosyst\u00e8me HoloViz, qui est sponsoris\u00e9e par NumFocus et gagne du terrain au sein de la communaut\u00e9 PyData. Panel permet aux utilisateurs de g\u00e9n\u00e9rer des rapports au format HTML et fonctionne \u00e9galement tr\u00e8s bien avec les <a href=\"https:\/\/jupyter.org\/\" target=\"_blank\" rel=\"noopener\">notebooks Jupyter<\/a>. Il fournit des mod\u00e8les pour aider les nouveaux utilisateurs \u00e0 bien d\u00e9marrer, ainsi que de nombreuses options de personnalisation pour les utilisateurs experts qui souhaitent affiner leurs tableaux de bord.<\/p>\n<h2 class=\"wp-block-heading\">Mod\u00e8les de ML : la pr\u00e9dominance de scikit-learn se confirme, tandis que PyTorch est le plus populaire pour le deep learning<\/h2>\n<p>L&#8217;IA g\u00e9n\u00e9rative et les LLM ayant beaucoup fait parler d&#8217;eux au cours des derni\u00e8res ann\u00e9es, on pourrait s&#8217;attendre \u00e0 ce que les frameworks et les biblioth\u00e8ques de deep learning aient compl\u00e8tement pris le dessus, mais cela n&#8217;est pas tout \u00e0 fait le cas. Il reste encore beaucoup d&#8217;informations qui peuvent \u00eatre extraites des donn\u00e9es au moyen des m\u00e9thodes statistiques traditionnelles offertes par scikit-learn, une biblioth\u00e8que de machine learning reconnue et principalement g\u00e9r\u00e9e par des chercheurs. Sponsoris\u00e9e par NumFocus depuis 2020, elle demeure la biblioth\u00e8que la plus importante pour le machine learning et la science des donn\u00e9es. SciPy, une autre biblioth\u00e8que Python offrant la prise en charge des calculs scientifiques, figure aussi parmi des biblioth\u00e8ques les plus utilis\u00e9es pour la science des donn\u00e9es.<\/p>\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" loading=\"lazy\" class=\"wp-image-531563\" src=\"https:\/\/blog.jetbrains.com\/wp-content\/uploads\/2024\/11\/4-2x.png\" alt=\"Frameworks pour l'entra\u00eenement des mod\u00e8les de ML et la pr\u00e9diction\" width=\"1700\" height=\"1376\" \/><\/figure>\n<p>Pour autant, on ne peut pas ignorer l&#8217;impact du deep learning et l&#8217;augmentation de l&#8217;utilisation des frameworks de deep learning. PyTorch, une biblioth\u00e8que de machine learning cr\u00e9\u00e9e par Meta, est d\u00e9sormais sous la gouvernance de la Linux Foundation. Sur la base de ce changement, on peut s&#8217;attendre \u00e0 ce que PyTorch reste une biblioth\u00e8que majeure de l&#8217;\u00e9cosyst\u00e8me open source et que sa communaut\u00e9 maintiendra un niveau actif d&#8217;implication. C&#8217;est le framework de deep learning le plus utilis\u00e9 et il est particuli\u00e8rement appr\u00e9ci\u00e9 par les utilisateurs de Python, notamment par ceux qui sont familiers avec NumPy, car les \u00ab tenseurs \u00bb, qui sont les structures de donn\u00e9es de base de PyTorch, sont tr\u00e8s similaires aux tableaux NumPy.\u00a0<\/p>\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" loading=\"lazy\" class=\"wp-image-532510\" src=\"https:\/\/blog.jetbrains.com\/wp-content\/uploads\/2024\/12\/Screen-Recording-2024-09-29-at-11.57.04.gif\" alt=\"Inspectez les tenseurs PyTorch dans PyCharm 2024.2.2 Pro comme vous le faites pour les tableaux NumPy\" width=\"2360\" height=\"610\" \/>\n<figcaption class=\"wp-element-caption\"><em>Vous pouvez inspecter les tenseurs PyTorch dans PyCharm 2024.2.2 Pro tout comme vous le faites pour les tableaux NumPy<\/em><\/figcaption>\n<\/figure>\n<p>Contrairement \u00e0 TensorFlow, qui utilise un graphe de calcul statique, PyTorch utilise un graphe dynamique, ce qui facilite grandement le profilage en Python. De plus, PyTorch fournit une API de profilage, ce qui en fait un excellent choix pour la recherche et l&#8217;exp\u00e9rimentation. Toutefois, si votre projet de deep learning requiert un d\u00e9ploiement \u00e9volutif et doit prendre en charge plusieurs langages de programmation, il peut \u00eatre pr\u00e9f\u00e9rable d&#8217;opter pour TensorFlow, qui est compatible avec de nombreux langages, parmi lesquels C++, JavaScript, Python, C#, Ruby et Swift. Keras est un outil qui rend TensorFlow plus accessible et qui est aussi populaire pour les frameworks de deep learning.<\/p>\n<p><a href=\"https:\/\/huggingface.co\/docs\/transformers\/en\/index\" target=\"_blank\" rel=\"noopener\">Hugging Face Transformers<\/a> est un autre framework incontournable pour le deep learning. Hugging Face est un hub qui fournit de nombreux mod\u00e8les de deep learning tr\u00e8s avanc\u00e9s et pr\u00e9-entra\u00een\u00e9s qui sont tr\u00e8s appr\u00e9ci\u00e9s par les communaut\u00e9s de la science des donn\u00e9es et du machine learning et que vous pouvez t\u00e9l\u00e9charger et entra\u00eener davantage vous-m\u00eame. Transformers est une biblioth\u00e8que maintenue par Hugging Face et sa communaut\u00e9 pour un machine learning de pointe avec PyTorch, TensorFlow et JAX. Hugging Face Transformers devrait attirer davantage d&#8217;utilisateurs en 2024 en raison de la popularit\u00e9 des LLM.\u00a0<\/p>\n<p><a href=\"https:\/\/blog.jetbrains.com\/fr\/pycharm\/2024\/12\/simplifiez-vos-workflows-de-machine-learning-avec-hugging-face-et-pycharm\/\" data-type=\"link\" data-id=\"https:\/\/blog.jetbrains.com\/pycharm\/2024\/11\/hugging-face-integration\/\">PyCharm permet d&#8217;identifier et de g\u00e9rer les mod\u00e8les Hugging Face<\/a> dans une fen\u00eatre d&#8217;outils d\u00e9di\u00e9e. Il vous aide \u00e9galement \u00e0 choisir le bon mod\u00e8le pour votre cas d&#8217;utilisation \u00e0 partir d&#8217;un grand nombre de mod\u00e8les Hugging Face directement dans l&#8217;IDE.\u00a0<\/p>\n<p><a href=\"https:\/\/github.com\/iryna-kondr\/scikit-llm\" target=\"_blank\" rel=\"noopener\">Scikit-LLM<\/a> est une nouvelle biblioth\u00e8que \u00e0 laquelle s&#8217;int\u00e9resser car elle permet de d&#8217;exploiter des mod\u00e8les d&#8217;Open AI comme ChatGPT et de les int\u00e9grer avec scikit-learn. Cela s&#8217;av\u00e8re tr\u00e8s pratique lorsqu&#8217;on doit analyser du texte et vous pouvez effectuer l&#8217;analyse \u00e0 partir de mod\u00e8les de scikit-learn avec toute la puissance de LLM modernes.<\/p>\n<h2 class=\"wp-block-heading\">MLOps : le futur des projets de science des donn\u00e9es<\/h2>\n<p>Le MLOps (op\u00e9rations de machine learning) constitue un aspect essentiel mais souvent n\u00e9glig\u00e9 des projets de science des donn\u00e9es. Dans le workflow des projets de science des donn\u00e9es, les data scientists doivent g\u00e9rer les donn\u00e9es, r\u00e9-entra\u00eener le mod\u00e8le et contr\u00f4ler les versions pour toutes les donn\u00e9es et les mod\u00e8les utilis\u00e9s. Parfois, lorsqu&#8217;une application de machine learning est d\u00e9ploy\u00e9e en production, il est aussi n\u00e9cessaire d\u2019observer et de surveiller ses performances et son utilisation.<\/p>\n<p>Des outils de MLOps con\u00e7us pour les projets de science des donn\u00e9es ont fait leur apparition au cours des derni\u00e8res ann\u00e9es. L&#8217;un des probl\u00e8mes qui pr\u00e9occupe les data scientists et les ing\u00e9nieurs de donn\u00e9es est le versioning des donn\u00e9es, un \u00e9l\u00e9ment crucial lorsque votre pipeline re\u00e7oit constamment des donn\u00e9es.\u00a0<\/p>\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" loading=\"lazy\" class=\"wp-image-531574\" src=\"https:\/\/blog.jetbrains.com\/wp-content\/uploads\/2024\/11\/5-2x-1.png\" alt=\"Outils pour le versioning des donn\u00e9es\" width=\"1700\" height=\"1196\" \/><\/figure>\n<p>Les data scientists et les ing\u00e9nieurs des donn\u00e9es doivent \u00e9galement pouvoir suivre leurs exp\u00e9rimentations. \u00c9tant donn\u00e9 que le mod\u00e8le de machine learning sera r\u00e9-entra\u00een\u00e9 avec de nouvelles donn\u00e9es et que les hyperparam\u00e8tres seront affin\u00e9s, il est important de pouvoir garder une trace du mod\u00e8le d&#8217;entra\u00eenement et des r\u00e9sultats des exp\u00e9rimentations. Actuellement, l&#8217;outil le plus populaire pour cela est <a href=\"https:\/\/github.com\/tensorflow\/tensorboard\" target=\"_blank\" rel=\"noopener\">TensorBoard<\/a>. Toutefois, cela pourrait changer bient\u00f4t. <a href=\"https:\/\/tensorboard.dev\/\" target=\"_blank\" rel=\"noopener\">TensorBoard.dev<\/a> a \u00e9t\u00e9 d\u00e9pr\u00e9ci\u00e9, les utilisateurs doivent donc maintenant d\u00e9ployer leurs propres installations TensorBoard localement ou partager les r\u00e9sultats en utilisant <a href=\"https:\/\/www.tensorflow.org\/tensorboard\/tensorboard_in_notebooks\" target=\"_blank\" rel=\"noopener\">l&#8217;int\u00e9gration de TensorBoard avec Google Colab<\/a>. Par cons\u00e9quent, l&#8217;utilisation de TensorBoard risque de diminuer au profit d&#8217;autres outils tels que <a href=\"https:\/\/mlflow.org\/\" target=\"_blank\" rel=\"noopener\">MLflow<\/a> et PyTorch.<\/p>\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" loading=\"lazy\" class=\"wp-image-531588\" src=\"https:\/\/blog.jetbrains.com\/wp-content\/uploads\/2024\/11\/6-2x.png\" alt=\"Outils de suivi des exp\u00e9rimentations\" width=\"1700\" height=\"1388\" \/><\/figure>\n<p>La mise en production de l&#8217;environnement de d\u00e9veloppement est une autre \u00e9tape de MLOps n\u00e9cessaire pour garantir le bon d\u00e9roulement des projets de donn\u00e9es. L&#8217;utilisation de conteneurs Docker, une pratique courante de d\u00e9veloppement chez les ing\u00e9nieurs logiciels, semble avoir \u00e9galement \u00e9t\u00e9 adopt\u00e9e par la communaut\u00e9 des data scientists. Elle permet d&#8217;assurer que les environnements de d\u00e9veloppement et de production restent coh\u00e9rents, ce qui est important pour les projets de science des donn\u00e9es impliquant des mod\u00e8les de machine learning qui doivent \u00eatre d\u00e9ploy\u00e9s en tant qu&#8217;applications. Nous pouvons voir que Docker est pl\u00e9biscit\u00e9 par les utilisateurs de Python qui ont besoin de d\u00e9ployer des services sur le cloud.<\/p>\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" loading=\"lazy\" class=\"wp-image-531599\" src=\"https:\/\/blog.jetbrains.com\/wp-content\/uploads\/2024\/11\/7-2x.png\" alt=\"Comment d\u00e9veloppez-vous pour le cloud\u00a0?\" width=\"1700\" height=\"1388\" \/><\/figure>\n<p>Cette ann\u00e9e, les conteneurs Docker devancent l\u00e9g\u00e8rement Anaconda dans la cat\u00e9gorie \u00ab Installation et mise \u00e0 niveau de Python \u00bb.<\/p>\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" loading=\"lazy\" class=\"wp-image-531611\" src=\"https:\/\/blog.jetbrains.com\/wp-content\/uploads\/2024\/11\/8-2x.png\" alt=\"Installation et mise \u00e0 niveau de Python 2023\" width=\"1700\" height=\"1292\" \/>\n<figcaption class=\"wp-element-caption\"><em>R\u00e9sultats de l&#8217;enqu\u00eate 2023<\/em><\/figcaption>\n<\/figure>\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" loading=\"lazy\" class=\"wp-image-531705\" src=\"https:\/\/blog.jetbrains.com\/wp-content\/uploads\/2024\/11\/9-2x-2.png\" alt=\"Installation et mise \u00e0 niveau de Python 2022\" width=\"1700\" height=\"1964\" \/>\n<figcaption class=\"wp-element-caption\"><em>R\u00e9sultats de l&#8217;enqu\u00eate 2022<\/em><\/figcaption>\n<\/figure>\n<h2 class=\"wp-block-heading\">Big data : quelle quantit\u00e9 de donn\u00e9es est suffisante ?<\/h2>\n<p>L&#8217;une des principales id\u00e9es re\u00e7ues concernant le big data est que nous aurons besoin de plus de donn\u00e9es pour entra\u00eener des mod\u00e8les plus performants et complexes afin d\u2019am\u00e9liorer les pr\u00e9dictions. Pourtant, cela n&#8217;est pas le cas. Les <a href=\"https:\/\/scikit-learn.org\/stable\/auto_examples\/model_selection\/plot_underfitting_overfitting.html\" target=\"_blank\" rel=\"noopener\">mod\u00e8les pouvant \u00eatre surajust\u00e9s<\/a>, plus ne veut pas forc\u00e9ment dire mieux en mati\u00e8re de machine learning. Diff\u00e9rents outils et approches peuvent \u00eatre requis en fonction du cas d&#8217;utilisation, du mod\u00e8le et de la quantit\u00e9 de donn\u00e9es trait\u00e9es simultan\u00e9ment.<\/p>\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" loading=\"lazy\" class=\"wp-image-531633\" src=\"https:\/\/blog.jetbrains.com\/wp-content\/uploads\/2024\/11\/10-2x.png\" alt=\"Solutions de big data\" width=\"1700\" height=\"1222\" \/><\/figure>\n<p>Le d\u00e9fi li\u00e9 \u00e0 la gestion de grandes quantit\u00e9s de donn\u00e9es en Python provient du fait que la plupart des biblioth\u00e8ques Python reposent sur le stockage des donn\u00e9es en m\u00e9moire. On pourrait d\u00e9ployer des ressources de cloud computing avec de grandes quantit\u00e9s de m\u00e9moire, mais m\u00eame cette approche a ses limites et peut parfois se r\u00e9v\u00e9ler lente et co\u00fbteuse.<\/p>\n<p>Pour traiter de grandes quantit\u00e9s de donn\u00e9es difficiles \u00e0 stocker en m\u00e9moire, une solution commune consiste \u00e0 utiliser des ressources informatiques distribu\u00e9es. Les t\u00e2ches et les donn\u00e9es sont r\u00e9parties dans un cluster pour \u00eatre ex\u00e9cut\u00e9es et trait\u00e9es en parall\u00e8le. Cette approche rend les op\u00e9rations de science des donn\u00e9es et de machine learning \u00e9volutives, et le moteur le plus utilis\u00e9 pour cela est <a href=\"https:\/\/spark.apache.org\/\" target=\"_blank\" rel=\"noopener\">Apache Spark<\/a>. Spark peut \u00eatre utilis\u00e9 avec la biblioth\u00e8que d&#8217;API Python <a href=\"https:\/\/spark.apache.org\/docs\/latest\/api\/python\/index.html\" target=\"_blank\" rel=\"noopener\">PySpark<\/a>.<\/p>\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" loading=\"lazy\" class=\"wp-image-531644\" src=\"https:\/\/blog.jetbrains.com\/wp-content\/uploads\/2024\/11\/11-2x.png\" alt=\"Outils big data 2023\" width=\"1700\" height=\"1196\" \/><\/figure>\n<p>Concernant Spark 2.0, il est recommand\u00e9 aux utilisateurs de l&#8217;<a href=\"https:\/\/spark.apache.org\/docs\/latest\/rdd-programming-guide.html\" target=\"_blank\" rel=\"noopener\">API RDD de Spark<\/a> de passer \u00e0 <a href=\"https:\/\/spark.apache.org\/docs\/latest\/sql-programming-guide.html\" target=\"_blank\" rel=\"noopener\">Spark SQL<\/a>, qui offre de meilleures performances. Spark SQL facilite \u00e9galement le traitement des donn\u00e9es pour les data scientists, car il permet d&#8217;ex\u00e9cuter des requ\u00eates SQL. PySpark devrait rester le choix le plus populaire pour 2024.<\/p>\n<p><a href=\"https:\/\/www.databricks.com\/\" target=\"_blank\" rel=\"noopener\">Databricks<\/a> est un autre outil populaire pour la gestion des donn\u00e9es dans les clusters. Si vous utilisez Databricks pour travailler sur vos donn\u00e9es dans des clusters, vous profiter de l&#8217;<a href=\"https:\/\/blog.jetbrains.com\/fr\/pycharm\/2024\/09\/presentation-de-l-integration-de-pycharm-avec-databricks\/\">int\u00e9gration puissante de Databricks et PyCharm<\/a> qui permet d&#8217;\u00e9crire du code pour vos pipelines et vos t\u00e2ches dans PyCharm, puis de le d\u00e9ployer, de le tester et de l&#8217;ex\u00e9cuter en temps r\u00e9el sur votre cluster Databricks sans configuration suppl\u00e9mentaire.<\/p>\n<h2 class=\"wp-block-heading\">Communaut\u00e9s : les \u00e9v\u00e9nements mettent de plus en plus en avant la science des donn\u00e9es<\/h2>\n<p>La plupart des personnes qui commencent \u00e0 utiliser Python le font pour des activit\u00e9s de science des donn\u00e9es et de plus en plus de biblioth\u00e8ques Python sont donc consacr\u00e9es aux cas d&#8217;utilisation dans ce domaine. Par ailleurs, les \u00e9v\u00e9nements Python comme <a href=\"https:\/\/us.pycon.org\/\" target=\"_blank\" rel=\"noopener\">PyCon<\/a> et <a href=\"https:\/\/www.europython-society.org\/europython\/\" target=\"_blank\" rel=\"noopener\">EuroPython<\/a> commencent \u00e0 proposer davantage de pr\u00e9sentations, d&#8217;\u00e9changes et d&#8217;ateliers d\u00e9di\u00e9s \u00e0 la science des donn\u00e9es, et les \u00e9v\u00e9nements portant sp\u00e9cifiquement sur ce domaine tels que <a href=\"https:\/\/pydata.org\/\" target=\"_blank\" rel=\"noopener\">PyData<\/a> et <a href=\"https:\/\/conference.scipy.org\/\" target=\"_blank\" rel=\"noopener\">SciPy<\/a> sont toujours autant appr\u00e9ci\u00e9s.<\/p>\n<h2 class=\"wp-block-heading\">Pour conclure<\/h2>\n<p>De plus en plus de nouveaux outils open source sont disponibles en r\u00e9ponse au dynamisme croissant de la science des donn\u00e9es et du machine learning et \u00e0 la popularit\u00e9 de l&#8217;IA et des LLM. L&#8217;univers de la science des donn\u00e9es continue \u00e0 \u00e9voluer rapidement et nous avons h\u00e2te de voir quelles seront les prochaines tendances majeures.<\/p>\n<h2 class=\"wp-block-heading\">Am\u00e9liorez votre exp\u00e9rience de la science des donn\u00e9es avec PyCharm<\/h2>\n<p>La science des donn\u00e9es moderne requiert des comp\u00e9tences pour une large gamme de t\u00e2ches, parmi lesquelles le traitement des donn\u00e9es et la visualisation, le code, le d\u00e9ploiement de mod\u00e8les et la gestion de grands jeux de donn\u00e9es. En tant qu&#8217;environnement de d\u00e9veloppement int\u00e9gr\u00e9 (IDE), PyCharm vous aide \u00e0 d\u00e9velopper ces comp\u00e9tences. Il fournit une assistance intelligente au codage, un d\u00e9bogage de haut niveau, le contr\u00f4le de version, la gestion int\u00e9gr\u00e9e des bases de donn\u00e9es et une int\u00e9gration fluide avec Docker. Pour la science des donn\u00e9es, PyCharm prend en charge les notebooks Jupyter, ainsi que les biblioth\u00e8ques scientifiques et de machine learning cl\u00e9s, et il s&#8217;int\u00e8gre avec des outils tels que la biblioth\u00e8que de mod\u00e8les Hugging Face, Anaconda et Databricks.<\/p>\n<p>Commencez \u00e0 utiliser <a href=\"https:\/\/www.jetbrains.com\/fr-fr\/pycharm\/data-science\/\" target=\"_blank\" rel=\"noopener\">PyCharm<\/a> pour vos projets de science des donn\u00e9es et profitez de ses derni\u00e8res am\u00e9liorations, telles que l&#8217;inspection des DataFrames pandas et Polars et l&#8217;inspection des tenseurs PyTorch couche par couche pour l&#8217;exploration des donn\u00e9es et la cr\u00e9ation de mod\u00e8les de deep learning.<\/p>\n<div class=\"buttons\">\n<div class=\"buttons__row\"><a class=\"btn\" href=\"https:\/\/www.jetbrains.com\/fr-fr\/pycharm\/data-science\/\" target=\"\" rel=\"noopener\">Essayez PyCharm gratuitement<\/a><\/div>\n<\/div>\n\n\n<p><em>Auteur de l&#8221;article original en anglais :<\/em><\/p>\n\n\n    <div class=\"about-author \">\n        <div class=\"about-author__box\">\n            <div class=\"row\">\n                <div class=\"about-author__box-img\">\n                    <img decoding=\"async\" src=\"https:\/\/blog.jetbrains.com\/wp-content\/uploads\/2025\/01\/CheukTingHo-Kimono-e1738750639162-200x200.jpg\" width=\"200\" height=\"200\" alt=\"Cheuk Ting Ho\" loading=\"lazy\"  class=\"avatar avatar-200 wp-user-avatar wp-user-avatar-200 photo avatar-default\">\n                <\/div>\n                <div class=\"about-author__box-text\">\n                                            <h4>Cheuk Ting Ho<\/h4>\n                                                        <\/div>\n            <\/div>\n        <\/div>\n    <\/div>\n","protected":false},"author":813,"featured_media":537242,"comment_status":"closed","ping_status":"closed","template":"","categories":[952],"tags":[73,6443],"cross-post-tag":[],"acf":[],"_links":{"self":[{"href":"https:\/\/blog.jetbrains.com\/fr\/wp-json\/wp\/v2\/pycharm\/536946"}],"collection":[{"href":"https:\/\/blog.jetbrains.com\/fr\/wp-json\/wp\/v2\/pycharm"}],"about":[{"href":"https:\/\/blog.jetbrains.com\/fr\/wp-json\/wp\/v2\/types\/pycharm"}],"author":[{"embeddable":true,"href":"https:\/\/blog.jetbrains.com\/fr\/wp-json\/wp\/v2\/users\/813"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.jetbrains.com\/fr\/wp-json\/wp\/v2\/comments?post=536946"}],"version-history":[{"count":10,"href":"https:\/\/blog.jetbrains.com\/fr\/wp-json\/wp\/v2\/pycharm\/536946\/revisions"}],"predecessor-version":[{"id":537274,"href":"https:\/\/blog.jetbrains.com\/fr\/wp-json\/wp\/v2\/pycharm\/536946\/revisions\/537274"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/blog.jetbrains.com\/fr\/wp-json\/wp\/v2\/media\/537242"}],"wp:attachment":[{"href":"https:\/\/blog.jetbrains.com\/fr\/wp-json\/wp\/v2\/media?parent=536946"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.jetbrains.com\/fr\/wp-json\/wp\/v2\/categories?post=536946"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.jetbrains.com\/fr\/wp-json\/wp\/v2\/tags?post=536946"},{"taxonomy":"cross-post-tag","embeddable":true,"href":"https:\/\/blog.jetbrains.com\/fr\/wp-json\/wp\/v2\/cross-post-tag?post=536946"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}