Item request has been placed! ×
Item request cannot be made. ×
loading  Processing Request

Etude approfondie des représentations de données textuelles dans l'apprentissage non supervisé

Item request has been placed! ×
Item request cannot be made. ×
loading   Processing Request
  • معلومة اضافية
    • Contributors:
      CB - Centre Borelli - UMR 9010 (CB); Service de Santé des Armées-Institut National de la Santé et de la Recherche Médicale (INSERM)-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Ecole Normale Supérieure Paris-Saclay (ENS Paris Saclay)-Université Paris Cité (UPCité); Université Paris Cité (UPCité); Caisse des dépôts et consignations (France) (CDC); Catherine Faron; Sabine Loudcher
    • بيانات النشر:
      HAL CCSD
      Editions RNTI
    • الموضوع:
      2023
    • Collection:
      Archive ouverte du Service de Santé des Armées (HAL)
    • الموضوع:
    • نبذة مختصرة :
      International audience ; Dense text representations are gaining great interest in several supervised tasks but much less is known about how suitable they are when dealing with an unlabeled dataset. In this paper, we investigate the use of such representations in unsupervised tasks: document clustering and visualization. For that, we propose the use of a tandem approach based un UMAP, showing that we can do better than the fine-tuning approaches usually proposed in the literature. ; Les plongements de textes ont récemment suscité un grand intérêt dans plusieurs tâches telles que la classification de textes/documents et la réponse aux questions. Cependant, bien que de nombreux défis soient rencontrés dans le domaine de l'apprentissage non supervisé, on en sait beaucoup moins sur la pertinence de ces différents plongements lorsqu'on dispose d'un ensemble de documents non labellisés. Dans cet article, nous étudions l'utilisation de telles représentations sur des tâches non supervisées : le clustering de documents et la visualisation. Ainsi, pour répondre à l'objectif de clustering, nous proposons d'utiliser une approche tandem combinant des techniques de réduction de dimension et de clustering. Nous montrons d'abord l'avantage de s'appuyer sur le sous-espace obtenu par Uniform Manifold Approximation and Projection (UMAP) pour le clustering plutôt que d'utiliser la réduction de dimension basée sur l'Analyse en composantes principales (ACP), plus souvent utilisée. Ensuite, à travers des expériences réalisées sur des jeux de données réels, nous montrons l'efficacité de l'approche tandem proposée sur des modèles pré-entraînés par rapport aux stratégies de ré-entraînement proposées dans la littérature.
    • Relation:
      hal-03951132; https://hal.science/hal-03951132; https://hal.science/hal-03951132/document; https://hal.science/hal-03951132/file/EGC_2023_aitsaada_nadif.pdf
    • الدخول الالكتروني :
      https://hal.science/hal-03951132
      https://hal.science/hal-03951132/document
      https://hal.science/hal-03951132/file/EGC_2023_aitsaada_nadif.pdf
    • Rights:
      info:eu-repo/semantics/OpenAccess
    • الرقم المعرف:
      edsbas.38864E9B