نبذة مختصرة : [ANGLÈS] The field of computer vision has radically evolved in the last few years due to the success of deep artificial neural networks. Current models have achieved remarkable performance in hallmark vision tasks such as object and scene recognition, and scientists have begun to approach new high-level problems with promising initial results. This project focuses on tasks at the intersection of vision and language, traditionally very distinct Artificial Intelligence fields. In first place, we present an overview of the most widely employed machine learning techniques in computer vision and natural language processing, including Support Vector Machines, Convolutional Neural Networks and Recurrent Neural Networks. A general understanding of these algorithms is needed to comprehend the rest of the project. Secondly, we focus on answering natural language questions about images. A successful solution to this task would allow search engines to retrieve images more effectively, as they would understand which pictures are relevant to complex natural language queries. Chapter \ref{chapter:question_answering} describes the problem in more detail and analyzes the strengths and weaknesses of our proposed solution. We then approach the problem of learning a common representation for language and images that preserves semantic meaning. In such feature space, sentences and pictures depicting similar concepts and scenes would have close encodings. From a practical point of view, it is a useful problem as we could train machine learning models for a given task using language and subsequently use them for vision and vice versa. However, it is also interesting from a theoretical view since it can give insights on how people mix concepts from different domains. Finally, we wrap up our project by summing up its key points while pointing out the future research directions in which the presented ideas, currently at an early stage of development, could be expanded.
[CASTELLÀ] El campo de la visión por ordenador ha evolucionado radicalmente en los últimos años debido al éxito de las redes neuronales artificiales. Los modelos acutales han conseguido un rendimiento extraordinario en tareas clásicas de visión como reconocimiento de objetos y escenas, y la comunidad científica ha empezado a tratar nuevos problemas de alto nivel con resultados iniciales esperanzadores. Este proyecto se centra en tareas a la intersección de la visión y el lenguaje, tradicionalmente dos campos muy distintos de la Inteligencia Artificial. En primer lugar presentamos un resumen de las técnicas de aprendizaje autónomo más utilizadas en visión por ordenador y procesado del lenguaje natural, incluyendo Support Vector Machines, Convolutional Neural Networks y Recurrent Neural Networks. En segundo lugar, nos centramos en la tarea de contestar preguntas en lenguaje natural sobre imágenes. Una solución exitosa a este problema permitiría a los buscadores de imágenes funcionar más efectivamente, pues serían capaces de filtrar imágenes según criterios de búsqueda complejos expresados en lenguaje natural. El capítulo 3 describe el problema con más detalle y analiza las fortalezas e inconvenientes de la solución propuesta. Después tratamos el problema de aprender una representación comuna para imágenes y lenguaje que preserve el significado semántico. En un espacio así, frases e imágenes referidas a conceptos similares tendrían representaciones parecidas. Desde un punto de vista práctico es un problema útil, pues permitiría entrenar modelos a partir de lenguaje y usarlos con imágenes, y a la inversa. También es interesante desde el punto de vista de la ciencia cognitiva, pues daría ideas sobre cómo las persones son capaces de asociar conceptos de distintos dominios. Finalmente hacemos un resumen de las contribuciones más importantes de este proyecto a la vez que presentamos futuras direcciones de investigación para expandir las ideas presentadas.
[CATALÀ] El camp de visió per ordinador ha evolucionat radicalment en els últims anys degut a l’èxit de les xarxes neuronals artificials. Els models actuals han obtingut un gran rendiment en tasques clàssiques de visió com reconeixement d’objectes o escenes, i la comunitat científica ha començat a tractar nous problemes d’alt nivell amb esperançadors resultats inicials. Aquest projecte se centra en tasques a la intersecció entre visió i llenguatge, dos camps tradicionalment molt diferents d’Intel·ligència Artificial. En primer lloc, presentem un resum de les tècniques d’aprenentatge autònom més utilitzades en visió per computador i processament del llenguatge natural, incloent Support Vector Machines, Convolutional Neural Networks i Recurrent Neural Networks. En segon lloc ens centrem en la tasca de contestar preguntes en llenguatge natural sobre imatges. Una solució exitosa a aquest problema permetria als cercadors d’imatges oferir resultats més adequats, ja que serien capaços de filtrar les imatges que es corresponen a un criteri de cerca expressat en llenguatge natural. El capítol 3 descriu el problema amb més detall i analitza les fortaleses i inconvenients de la solució que en proposem. Després tractem el problema de trobar una representació comuna per llenguatge i visió que preservi el significat semàntic. En aquest espai, frases i imatges referides a conceptes similars tindrien una representació molt propera. Des d’un punt de vista pràctic és un problema amb utilitat ja que podríem entrenar models a partir de llenguatge que funcionessin per imatges i a l’inrevés. També és interessant, però, des del punt de vista de la ciència cognitiva, doncs pot donar idees sobre com els humans som capaços d’associar conceptes que provenen de diferents dominis. Finalment, resumim el projecte i les seves principals contribucions a la vegada que indiquem futures direccions de recerca per expandir les idees tractades.
No Comments.