Fine-tuning de modèles de langues pour la veille épidémiologique multilingue avec peu de ressources

Item request has been placed!

Item request cannot be made.

Processing Request

اقرأ أكثر حفظ في قائمتي

المؤلفون: Mutuvi, Stephen; Boros, Emanuela; Doucet, Antoine; Jatowt, Adam; Lejeune, Gaël; Odeo, Moses
المصدر:
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale ; Traitement Automatique des Langues Naturelles (TALN 2022) ; https://hal.science/hal-03701516 ; Traitement Automatique des Langues Naturelles (TALN 2022), Jun 2022, Avignon, France. pp.345-354
الموضوع:
extraction d’événements épidémiologiques; langues peu dotées; modèles de langues; [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]
نوع التسجيلة:
conference object
اللغة:
French

معلومة اضافية
- Contributors:
  Laboratoire Informatique, Image et Interaction - EA 2118 (L3I); La Rochelle Université (ULR); Leopold Franzens Universität Innsbruck - University of Innsbruck; Sens, Texte, Informatique, Histoire (STIH); Sorbonne Université (SU); Équipe Linguistique computationnelle (STIH-LC); Sorbonne Université (SU)-Sorbonne Université (SU); Multimedia University; Estève, Yannick; Jiménez, Tania; Parcollet, Titouan; Zanon Boito, Marcely
- بيانات النشر:
  HAL CCSD
  ATALA
- الموضوع:
  2022
- Collection:
  HAL - Université de La Rochelle
- الموضوع:
  Avignon; France
- نبذة مختصرة :
  National audience ; Les modèles de langues pré-entraînés connaissent un très grand succès en TAL, en particulier dans les situations où l’on dispose de suffisamment de données d’entraînement. Cependant, il reste difficile d’obtenir des résultats similaires dans des environnements multilingues avec peu de données d’entraînement, en particulier dans des domaines spécialisés tels que la surveillance des épidémies. Dans cet article, nous explorons plusieurs hypothèses concernant les facteurs qui pourraient avoir une influence sur les performances d’un système d’extraction d’événements épidémiologiques dans un scénario multilingue à faibles ressources : le type de modèle pré-entraîné, la qualité du tokenizer ainsi que les caractéristiques des entités à extraire. Nous proposons une analyse exhaustive de ces facteurs et observons une corrélation importante, quoique variable ; entre ces caractéristiques et les performances observées sur la base d’une tâche de veille épidémiologique multilingue à faibles ressources. Nous proposons aussi d’adapter les modèles de langues à cette tâche en étendant le vocabulaire du tokenizer pré-entraîné avec les entités continues, qui sont des entités qui ont été divisées en plusieurs sous-mots. Suite à cette adaptation, nous observons une amélioration notable des performances pour la plupart des modèles et des langues évalués.
- Relation:
  hal-03701516; https://hal.science/hal-03701516; https://hal.science/hal-03701516/document; https://hal.science/hal-03701516/file/8981.pdf
- Rights:
  info:eu-repo/semantics/OpenAccess
- الرقم المعرف:
  edsbas.67B55880

تعليقات

No Comments.