Item request has been placed! ×
Item request cannot be made. ×
loading  Processing Request

Complex networks based word embeddings ; Apprentissage de plongements lexicaux par une approcheréseaux complexes

Item request has been placed! ×
Item request cannot be made. ×
loading   Processing Request
  • معلومة اضافية
    • Contributors:
      Traitement Automatique du Langage Naturel (LS2N - équipe TALN ); Laboratoire des Sciences du Numérique de Nantes (LS2N); Université de Nantes - UFR des Sciences et des Techniques (UN UFR ST); Université de Nantes (UN)-Université de Nantes (UN)-École Centrale de Nantes (ECN)-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique); Institut Mines-Télécom Paris (IMT)-Institut Mines-Télécom Paris (IMT)-Université de Nantes - UFR des Sciences et des Techniques (UN UFR ST); Institut Mines-Télécom Paris (IMT)-Institut Mines-Télécom Paris (IMT); Data User Knowledge (LS2N - équipe DUKe); Laboratoire d'Informatique de l'Université du Mans (LIUM); Le Mans Université (UM)
    • بيانات النشر:
      HAL CCSD
    • الموضوع:
      2019
    • Collection:
      Le Mans Université: Archives Ouvertes (HAL)
    • الموضوع:
    • نبذة مختصرة :
      National audience ; Complex networks based word embeddings. Most of the time, the first step to learn word embeddings is to build a word co-occurrence matrix. As such matrices are equivalent to graphs, complex networks theory can naturally be used to deal with such data. In this paper, we consider applying community detection, a main tool of this field, to the co-occurrence matrix corresponding to a huge corpus. Community structure is used as a way to reduce the dimensionality of the initial space. Using this community structure, we propose a method to extract word embeddings that are comparable to the state-of-the-art approaches. ; La littérature des réseaux complexes a montré la pertinence de l'étude de la langue sous forme de réseau pour différentes applications : désambiguïsation, résumé automatique, classification des langues, etc. Cette même littérature a démontré que les réseaux de co-occurrences de mots possèdent une structure de communautés latente. Nous formulons l'hypothèse que cette structuration du réseau sous forme de communautés est utile pour travailler sur la sémantique d'une langue et introduisons donc dans cet article une méthode d'apprentissage de plongements originale basée sur cette hypothèse. Cette hypothèse est cohérente avec la proximité qui existe entre la détection de communautés sur un réseau de co-occurrences et la factorisation d'une matrice de co-occurrences, méthode couramment utilisée pour l'apprentissage de plongements lexicaux. Nous décrivons notre méthode structurée en trois étapes : construction et pré-traitement du réseau, détection de la structure de communautés, construction des plongements de mots à partir de cette structure. Après avoir décrit cette nouvelle méthodologie, nous montrons la pertinence de notre approche avec des premiers résultats d'évaluation sur les tâches de catégorisation et de similarité. Enfin, nous discutons des perspectives importantes d'un tel modèle issu des réseaux complexes : les dimensions du modèle (les communautés) semblent interprétables, ...
    • Relation:
      hal-02408156; https://hal.science/hal-02408156; https://hal.science/hal-02408156/document; https://hal.science/hal-02408156/file/Mod_le_de_document_pour_TALN_2019.pdf
    • Rights:
      info:eu-repo/semantics/OpenAccess
    • الرقم المعرف:
      edsbas.948F9AAD