Contributors: Biologically plausible Integrative mOdels of the Visual system : towards synergIstic Solutions for visually-Impaired people and artificial visiON (BIOVISION); Inria Sophia Antipolis - Méditerranée (CRISAM); Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria); Université Côte d'Azur (UniCA); Institut universitaire de France (IUF); Ministère de l'Education nationale, de l’Enseignement supérieur et de la Recherche (M.E.N.E.S.R.); Laboratoire d'Informatique, Signaux, et Systèmes de Sophia-Antipolis (I3S) / Equipe SIGNET; COMmunications, Réseaux, systèmes Embarqués et Distribués (Laboratoire I3S - COMRED); Laboratoire d'Informatique, Signaux, et Systèmes de Sophia Antipolis (I3S); Université Nice Sophia Antipolis (1965 - 2019) (UNS)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UniCA)-Université Nice Sophia Antipolis (1965 - 2019) (UNS)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UniCA)-Laboratoire d'Informatique, Signaux, et Systèmes de Sophia Antipolis (I3S); Université Nice Sophia Antipolis (1965 - 2019) (UNS)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UniCA)-Université Nice Sophia Antipolis (1965 - 2019) (UNS)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UniCA); ANR-21-CE33-0001,CREATTIVE3D,Création de contextes 3D portés par l'attention pour la basse vision(2021)
نبذة مختصرة : International audience ; Scene context informing on spatio-temporal interactions between people and other entities significantly improves accuracy of activity recognition and motion forecasting tasks, such as human trajectory prediction, but is difficult to obtain. Virtual reality (VR) offers an opportunity to generate and simulate diverse scenes with contextual information, which can potentially inform real-life scenarios. We design a teacher model leveraging heterogeneous graphs constructed from VR scene annotations to enhance prediction accuracy. This ongoing work proposes cross-modal knowledge distillation (CMKD), transferring the knowledge from the VR-constructed graphs to a student model that uses scene point clouds. Preliminary results show the potential of CMKD to transfer contextual information that significantly improves the prediction accuracy of the student model. Scene context informing on spatio-temporal interactions between people and other entities significantly improves accuracy of activity recognition and motion forecasting tasks, such as human trajectory prediction, but is difficult to obtain. ; Le contexte de la scène, qui informe sur les interactions spatio-temporelles entre les personnes et d'autres entités, améliore considérablement la précision des tâches de reconnaissance d'activité et de prévision de mouvement, telles que la prédiction de trajectoires humaines, mais il est difficile à obtenir. La réalité virtuelle (VR) offre une opportunité de générer et de simuler des scènes variées avec des informations contextuelles, pouvant potentiellement éclairer des scénarios réels. Nous concevons un modèle enseignant exploitant des graphes hétérogènes construits à partir des annotations de scènes VR pour améliorer la précision des prédictions. Ce travail en cours propose une distillation de connaissances intermodales (CMKD), transférant les connaissances des graphes construits en VR vers un modèle étudiant qui utilise des nuages de points de scène. Les résultats préliminaires montrent le ...
No Comments.