Item request has been placed! ×
Item request cannot be made. ×
loading  Processing Request

RocketQAv2: A Joint Training Method for Dense Passage Retrieval and Passage Re-ranking

Item request has been placed! ×
Item request cannot be made. ×
loading   Processing Request
  • معلومة اضافية
    • بيانات النشر:
      Preprint
    • بيانات النشر:
      Association for Computational Linguistics (ACL), 2021.
    • الموضوع:
      2021
    • نبذة مختصرة :
      Dans diverses tâches de traitement du langage naturel, la récupération et le reclassement des passages sont deux procédures clés pour trouver et classer les informations pertinentes. Étant donné que les deux procédures contribuent à la performance finale, il est important de les optimiser conjointement afin de parvenir à une amélioration mutuelle. Dans cet article, nous proposons une nouvelle approche de formation conjointe pour la récupération et le reclassement des passages denses. Une contribution majeure est que nous introduisons la distillation par liste dynamique, où nous concevons une approche de formation par liste unifiée pour l'extracteur et le reclasseur. Au cours de la distillation dynamique, l'extracteur et le reclasseur peuvent être améliorés de manière adaptative en fonction des informations de pertinence de l'autre. Nous proposons également une stratégie hybride d'augmentation des données pour construire diverses instances de formation pour l'approche de formation par liste. Des expériences approfondies montrent l'efficacité de notre approche sur les ensembles de données MSMARCO et Natural Questions.
      En varias tareas de procesamiento de lenguaje natural, la recuperación de pasajes y la reordenación de pasajes son dos procedimientos clave para encontrar y clasificar la información relevante. Dado que ambos procedimientos contribuyen al rendimiento final, es importante optimizarlos conjuntamente para lograr una mejora mutua. En este documento, proponemos un nuevo enfoque de entrenamiento conjunto para la recuperación de pasajes densos y la reordenación de pasajes. Una contribución importante es que introducimos la destilación dinámica por listas, donde diseñamos un enfoque de entrenamiento unificado por listas tanto para el recuperador como para el reordenador. Durante la destilación dinámica, el recuperador y el reordenador se pueden mejorar adaptativamente de acuerdo con la información de relevancia de cada uno. También proponemos una estrategia híbrida de aumento de datos para construir diversas instancias de entrenamiento para el enfoque de entrenamiento por listas. Los experimentos extensivos muestran la efectividad de nuestro enfoque en los conjuntos de datos MSMARCO y Natural Questions.
      In various natural language processing tasks, passage retrieval and passage re-ranking are two key procedures in finding and ranking relevant information.Since both the two procedures contribute to the final performance, it is important to jointly optimize them in order to achieve mutual improvement.In this paper, we propose a novel joint training approach for dense passage retrieval and passage reranking.A major contribution is that we introduce the dynamic listwise distillation, where we design a unified listwise training approach for both the retriever and the re-ranker.During the dynamic distillation, the retriever and the re-ranker can be adaptively improved according to each other's relevance information.We also propose a hybrid data augmentation strategy to construct diverse training instances for listwise training approach.Extensive experiments show the effectiveness of our approach on both MSMARCO and Natural Questions datasets.
      في مختلف مهام معالجة اللغة الطبيعية، يعد استرجاع المقطع وإعادة ترتيب المقطع إجراءين رئيسيين في العثور على المعلومات ذات الصلة وترتيبها. نظرًا لأن كلا الإجراءين يساهمان في الأداء النهائي، فمن المهم تحسينهما بشكل مشترك من أجل تحقيق التحسين المتبادل. في هذه الورقة، نقترح نهجًا تدريبيًا مشتركًا جديدًا لاسترجاع المقطع الكثيف وإعادة ترتيب المقطع. المساهمة الرئيسية هي أننا نقدم التقطير الديناميكي القائم على القائمة، حيث نقوم بتصميم نهج تدريبي موحد قائم على القائمة لكل من المسترد وإعادة الترتيب. خلال التقطير الديناميكي، يمكن تحسين المسترد وإعادة الترتيب بشكل متكيف وفقًا لمعلومات كل منهما الأخرى ذات الصلة. نقترح أيضًا استراتيجية زيادة البيانات الهجينة لبناء حالات تدريب متنوعة لنهج التدريب القائم على القائمة. تظهر التجارب المكثفة فعالية نهجنا على كل من MSMARCO ومجموعات بيانات الأسئلة الطبيعية.
    • الرقم المعرف:
      10.18653/v1/2021.emnlp-main.224
    • الرقم المعرف:
      10.60692/1qx4x-x7748
    • الرقم المعرف:
      10.48550/arxiv.2110.07367
    • الرقم المعرف:
      10.60692/knanm-sbc86
    • Rights:
      CC BY
      arXiv Non-Exclusive Distribution
    • الرقم المعرف:
      edsair.doi.dedup.....2d4d9f7951a24d498e704d6b205d9c3e