نبذة مختصرة : International audience ; The advent of big data collection has contributed to the development of knowledge extraction methods, but it has also introduced new challenges. One of the main issues is dealing with highly imbalanceddatasets, particularlyin class labelsforcategorical classificationtasks. This article presents a comprehensive strategy developed to address the issue of imbalanced data in a spatio-temporal epidemiological study of leptospirosis. The approach was evaluated using real data for a binary classification task, predicting the presence of contamination risk with the bacteria associated with leptospirosis, where the majority class represents 95% of the labels. By applying under-sampling, training 200 machine learning models, and using weighted predictions, our strategy achieved a balanced accuracy of 76.19%, an AUC-ROC of 83.29%, and a recall of 83.93%. ; L'émergence de la collecte de données massives a contribué au développement de méthodes d'extraction de connaissances, mais elle a également apporté son lot de défis. Parmi ces défis, on retrouve le problème des données fortement déséquilibrées, notamment dans les classes à prédire d'une tâche de classification catégorielle. Cet article présente une stratégie complète développée afin de pallier la problématique de données déséquilibrées dans le cadre d'une étude épidémiologique spatio-temporelle de la leptospirose. L'approche est évaluée sur des données réelles pour une tâche de classification binaire de "présence de risque" de contamination de la bactérie associée à la leptospirose, où la classe majoritaire représente environ 95% des classes à prédire. Par le sous-échantillonnage, l'entraînement de 200 modèles d'apprentissage supervisé et une prédiction pondérée, notre stratégie a atteint une justesse équilibrée de 76,19%, un AUC de 83,29% et un rappel de 83,93%.
No Comments.