Item request has been placed! ×
Item request cannot be made. ×
loading  Processing Request

Fine-tuning de modèles de langues pour la veille épidémiologique multilingue avec peu de ressources

Item request has been placed! ×
Item request cannot be made. ×
loading   Processing Request
  • معلومة اضافية
    • Contributors:
      Laboratoire Informatique, Image et Interaction - EA 2118 (L3I); La Rochelle Université (ULR); Leopold Franzens Universität Innsbruck - University of Innsbruck; Sens, Texte, Informatique, Histoire (STIH); Sorbonne Université (SU); Équipe Linguistique computationnelle (STIH-LC); Sorbonne Université (SU)-Sorbonne Université (SU); Multimedia University; Estève, Yannick; Jiménez, Tania; Parcollet, Titouan; Zanon Boito, Marcely
    • بيانات النشر:
      HAL CCSD
      ATALA
    • الموضوع:
      2022
    • Collection:
      HAL - Université de La Rochelle
    • الموضوع:
    • نبذة مختصرة :
      National audience ; Les modèles de langues pré-entraînés connaissent un très grand succès en TAL, en particulier dans les situations où l’on dispose de suffisamment de données d’entraînement. Cependant, il reste difficile d’obtenir des résultats similaires dans des environnements multilingues avec peu de données d’entraînement, en particulier dans des domaines spécialisés tels que la surveillance des épidémies. Dans cet article, nous explorons plusieurs hypothèses concernant les facteurs qui pourraient avoir une influence sur les performances d’un système d’extraction d’événements épidémiologiques dans un scénario multilingue à faibles ressources : le type de modèle pré-entraîné, la qualité du tokenizer ainsi que les caractéristiques des entités à extraire. Nous proposons une analyse exhaustive de ces facteurs et observons une corrélation importante, quoique variable ; entre ces caractéristiques et les performances observées sur la base d’une tâche de veille épidémiologique multilingue à faibles ressources. Nous proposons aussi d’adapter les modèles de langues à cette tâche en étendant le vocabulaire du tokenizer pré-entraîné avec les entités continues, qui sont des entités qui ont été divisées en plusieurs sous-mots. Suite à cette adaptation, nous observons une amélioration notable des performances pour la plupart des modèles et des langues évalués.
    • Relation:
      hal-03701516; https://hal.science/hal-03701516; https://hal.science/hal-03701516/document; https://hal.science/hal-03701516/file/8981.pdf
    • Rights:
      info:eu-repo/semantics/OpenAccess
    • الرقم المعرف:
      edsbas.67B55880