Item request has been placed! ×
Item request cannot be made. ×
loading  Processing Request

Cartographie du risque épidémiologique : le défi des données fortement déséquilibrées

Item request has been placed! ×
Item request cannot be made. ×
loading   Processing Request
  • معلومة اضافية
    • Contributors:
      Institut de sciences exactes et appliquées (ISEA); Université de la Nouvelle-Calédonie (UNC); Unité de Recherche et d'Expertise Leptospirose - Leptospirosis Research and Expertise Unit Nouméa, Nouvelle-Calédonie (UREL); Institut Pasteur de Nouvelle-Calédonie; Pasteur Network (Réseau International des Instituts Pasteur)-Pasteur Network (Réseau International des Instituts Pasteur); Pacific community Nouméa, nouvelle Calédonie (SPC); Direction des Affaires sanitaires et sociales de la Nouvelle-Calédonie Nouméa (DASS Nouméa ); Shenzhen University Shenzhen; Ce travail a été financé dans le cadre du projet ANR SPIraL (ANR-19-CE35-0006-02). Nous remercions la Direction des Affaires Sanitaires et Sociales de Nouvelle-Calédonie pour la collecte, la consolidation et la mise à disposition des données relatives aux cas de leptospirose.; Thomas Guyet; Baptiste Lafabrègue; Aurélie Leborgne; ANR-19-CE35-0006,SPIraL,Sols, pluie et leptospirose(2019)
    • بيانات النشر:
      CCSD
      RNTI
    • الموضوع:
      2025
    • الموضوع:
    • نبذة مختصرة :
      International audience ; The advent of big data collection has contributed to the development of knowledge extraction methods, but it has also introduced new challenges. One of the main issues is dealing with highly imbalanceddatasets, particularlyin class labelsforcategorical classificationtasks. This article presents a comprehensive strategy developed to address the issue of imbalanced data in a spatio-temporal epidemiological study of leptospirosis. The approach was evaluated using real data for a binary classification task, predicting the presence of contamination risk with the bacteria associated with leptospirosis, where the majority class represents 95% of the labels. By applying under-sampling, training 200 machine learning models, and using weighted predictions, our strategy achieved a balanced accuracy of 76.19%, an AUC-ROC of 83.29%, and a recall of 83.93%. ; L'émergence de la collecte de données massives a contribué au développement de méthodes d'extraction de connaissances, mais elle a également apporté son lot de défis. Parmi ces défis, on retrouve le problème des données fortement déséquilibrées, notamment dans les classes à prédire d'une tâche de classification catégorielle. Cet article présente une stratégie complète développée afin de pallier la problématique de données déséquilibrées dans le cadre d'une étude épidémiologique spatio-temporelle de la leptospirose. L'approche est évaluée sur des données réelles pour une tâche de classification binaire de "présence de risque" de contamination de la bactérie associée à la leptospirose, où la classe majoritaire représente environ 95% des classes à prédire. Par le sous-échantillonnage, l'entraînement de 200 modèles d'apprentissage supervisé et une prédiction pondérée, notre stratégie a atteint une justesse équilibrée de 76,19%, un AUC de 83,29% et un rappel de 83,93%.
    • ISBN:
      979-1-09-628922-6
    • الدخول الالكتروني :
      https://hal.science/hal-04945686
      https://hal.science/hal-04945686v1/document
      https://hal.science/hal-04945686v1/file/proceedings7518.pdf
    • Rights:
      http://creativecommons.org/licenses/by/ ; info:eu-repo/semantics/OpenAccess
    • الرقم المعرف:
      edsbas.91822F98