Retrieval Augmented Visual Question Answering with Outside Knowledge
创始人
2024-06-02 00:28:00
0

Paper name

Retrieval Augmented Visual Question Answering with Outside Knowledge

Paper Reading Note

URL: https://arxiv.org/pdf/2210.03809.pdf

TL;DR

  • EMNLP 2022 文章,提出名为 RA-VQA 的一种联合训练方案,该方案可以同时训练答案生成模块和文档检索模块,从而可以以端到端的方式训练系统

Introduction

背景

在这里插入图片描述

  • 外部知识视觉问答(OK-VQA)是一项具有挑战性的VQA任务,需要检索外部知识来回答有关图像的问题
  • 最近的OKVQA系统使用密集段落检索(DPR)从外部知识库(如维基百科)检索文档,但DPR与答案生成分开训练,这可能会限制系统的整体性能
  • 之前的工作 Retrieval Augmented Generation (RAG) 已经表明,基于DPR的QA系统端到端联合训练可以优于两步系统的 baseline;RAG 的一个显著特征是它的损失函数:它结合了检索到的文档的边缘似然,使得每当文档改进预测时,文档的训练分数都会增加。然而在 OK-VQA 上初步做 RAG 实验并没有好的效果,经过调查发现,OK-VQA训练问题中的很大一部分可以通过仅从图像中提取的信息以闭卷形式回答(即使用T5等预训练模型(Raffel等人,2020)),结果是RAG损失函数在文档上进行的 award 实际上没有助于回答问题;另外 OK-VQA 比 RAG 做实验的 Open QA 数据集更难,存在更多的无法用可检索的知识回答的疑难问题
    • 本文制定了一个损失函数,避免在存在不相关文档的情况下向检索模型发送误导信号

本文方案

  • 本文提出了一种联合训练方案,该方案包括与答案生成集成的可微DPR,从而可以以端到端的方式训练系统
  • 还引入了新的诊断指标来分析检索和生成是如何交互的
  • 本文模型的强大检索能力显著减少了训练中所需的检索文档数量,在训练所需的答案质量和计算资源方面产生了显著的好处
  • 本文主要贡献有
    • 提出了一种用于知识检索和答案生成的联合训练框架(RA-VQA),改进了Retrieval Augmented Generation (RAG) 和基于DPR的两步基线系统
    • 调查了转化为“语言空间”的视觉基础特征,并评估其对OK-VQA性能的贡献
    • 研究了文档检索在KB-VQA中的作用,并评估了其与检索增强生成的交互作用。同时还表明,在联合训练中,检索变得更加有效,需要在训练中检索相对较少的(~5)文档

Dataset/Algorithm/Model/Experiment Detail

实现方式

在这里插入图片描述

Vision-to-Language Transformation

  • 在RA-VQA中,每个图像都由视觉目标及其属性、图像标题和图像中检测到的任何文本字符串表示
    • 目标检测模型使用 VinVL,属性包括颜色和材质
    • 图像标题模型用的是 Oscar+
    • 文本字符串用 Google OCR API 来提取
  • 基于上述模型处理,视觉图片被处理为只有文本的训练集

Weakly-supervised Dense Passage Retrieval (DPR)

  • DPR 包含 query encoder 和 document encoder,都是 transformer 结构,目标是基于与 query 的相似性从外部数据库中检索出 K 个有助于回答问题的 document,相似性就是特征內积计算得到
    在这里插入图片描述
  • RA-VQA 在训练过程中对于 document 和回答问题相关时,最大化相似度 r(x, z)
    • 基于伪相关作为监督信号:当 document z 中包含答案时(通过字符串匹配)相关性为 1,否者为 0。DPR 的 loss 函数如下
      在这里插入图片描述
      其中 r+ 为正样本,r为负样本

Joint Training of Retrieval and Answer Generation

  • DPR 基于 query x 从数据库中检索出最相关的 document z,检索的 document 的分数基于如下公式计算
    在这里插入图片描述
  • 基于 T5 之类的文本模型生成答案
    在这里插入图片描述
  • 对于训练样本检索到的每个 document,都与 x concat 后生成答案 sk∗s_{k}^{*}sk∗​,对于答案集 S 中的答案,如果在 document 中则会被选择为 gt,如果 document 中不包含任何答案,则选择 S 中最 popular (OKVQA 每个问题有5个标注员,投票最多的答案是最 popular) 的答案作为 gt
  • 基于模型预测结果和伪相关标签将检索的 document 分为两类
    在这里插入图片描述
    P+ 是伪相关文档的索引,同时也有助于模型生成 popular 答案;P- 是指不利于生成答案的文档,训练loss 如下
    在这里插入图片描述
    损失中的第一项改进了从查询和检索到的文档中生成答案的能力;其余项影响文档检索能力:第二个 loss 鼓励检索不仅伪相关而且能够产生正确答案的文档,而第三个术语用于从排名靠前的检索文档中删除不相关的项目。信息流示意图如下
    在这里插入图片描述
    检索和生成在训练中相辅相成:伪相关性标签和模型预测为改进检索提供了积极和消极的信号,而改进的检索通过对 sk∗s_{k}^{*}sk∗​ 的训练改进了答案生成(因为对每个检索到的 document 都生成了答案)

RA-VQA Generation

  • 联合检索和生成的置信度确定最终答案
    在这里插入图片描述

实验结果

实验配置

  • 知识库选择用 corpus GS-full:包含 168,306 documents
  • 知识库检索模型用 BERT-base
  • 答案生成模型用 T5-large
  • 本文方法的变种模型
    • RA-VQA-NoDPR:完全省略检索,因此仅通过微调T5生成答案,即答案生成简化为
      在这里插入图片描述
    • RA-VQA-FrDPR:检索模型固定参数,只对答案生成模型进行 finetune
    • RA-VQA-NoPR:文档检索模型仅使用模型预测进行训练,即正负样本定义修改为如下
      在这里插入图片描述
    • RA-VQA-NoCT:gt 直接使用答案集中最 popular 的答案

评价指标

  • VQA Score:与 OK-VQA 数据集提出的指标一样
    在这里插入图片描述
    #S (y) 是标注 y 的标注员数目。这个分数确保了模型得到部分奖励,即使它从人类的反应中产生了一个不太受欢迎的答案
  • Exact Match (EM):对人类标注的标签平等对待
    在这里插入图片描述

与 SOTA 对比

  • 与类似的工作 TRiG 相比精度更高;与 KAT-T5 比也是有很大优势;与带 GPT-3 的 KAT 比精度差不多,不过 GPT-3 参数量大
    在这里插入图片描述

Thoughts

  • end-to-end 对文档检索模块和答案生成模块都进行联合训练看起来是很科学的,相比于类似计算量的 KAT-T5 优势很明显

相关内容

热门资讯

北方系统窗安装流程,系统窗安装... 一、系统门窗安装前的准备工作在开始系统门窗安装之前,我们需要做好一系列的准备工作。首先,要确保门窗的...
氨安装系统保压,氨安装系统保压... 氨安装系统保压的重要性与实施方法氨制冷系统在现代工业和商业制冷领域应用广泛,其高效、环保的特点使其成...
北斗系统安装后续,北斗系统安装... 北斗系统安装进展与未来展望随着我国北斗卫星导航系统的不断完善和普及,北斗系统的安装和应用已经深入到各...
把手机系统安装在卡里,如何将手... 如何将手机系统安装在SD卡里?随着智能手机的普及,用户对手机存储空间的需求越来越大。为了提高手机的存...
保山智能音响系统安装,保山智能... 保山智能音响系统安装——打造家庭影院新体验一、选择合适的智能音响系统在安装智能音响系统之前,首先需要...
安装系统专业版10 Windows 10 专业版系统安装教程一、准备工作在开始安装 Windows 10 专业版系统之前...
安卓系统怎么安装zip,安卓系... 安卓系统安装zip文件全攻略随着智能手机的普及,越来越多的用户开始接触和使用安卓系统。在下载应用或游...
报警系统安装验收规范 报警系统安装验收规范随着社会的发展和科技的进步,报警系统在公共安全、家庭安全等领域扮演着越来越重要的...
安卓系统安装会唱歌,安卓系统安... 安卓系统安装会唱歌应用,让你的手机也能唱歌跳舞随着智能手机的普及,安卓系统因其开放性和丰富的应用生态...
安装下载gps定位系统,gps... GPS定位系统安装与下载指南一、GPS定位系统简介GPS定位系统,全称为全球定位系统(Global ...
清风u盘安装系统,轻松实现电脑... 清风U盘安装系统教程:轻松实现电脑系统重装一、准备工具与材料在开始安装系统之前,我们需要准备以下工具...
安装在移动盘的系统,如何在移动... 如何在移动硬盘上安装操作系统随着移动硬盘存储能力的提升,越来越多的用户选择将操作系统安装在移动硬盘上...
安卓系统安装cad,安卓系统上... 安卓系统上安装CAD软件的详细教程随着移动办公的普及,越来越多的专业人士开始使用安卓手机进行工作。C...
北京监控系统安装维修,保障安全... 北京监控系统安装维修:保障安全,提升效率随着社会经济的发展,人们对安全防范的需求日益增长。监控系统作...
安装影子系统电脑蓝屏,安装影子... 安装影子系统后电脑蓝屏的解决方法及原因分析影子系统作为一种强大的系统保护软件,能够在一定程度上隔离操...
安装系统找不到本地介质,安装系... 安装系统时找不到本地介质的原因及解决方法在电脑使用过程中,我们可能会遇到重装系统的情况。然而,在安装...
庆阳全景系统门窗安装,庆阳全景... 庆阳全景系统门窗安装,打造现代家居新风尚一、庆阳全景系统门窗的特点庆阳全景系统门窗采用高强度的铝合金...
帮助安装电脑系统,轻松掌握系统... 电脑系统安装教程:轻松掌握系统安装方法一、准备工作在开始安装电脑系统之前,我们需要做好以下准备工作:...
奥迪安卓系统安装,轻松升级车载... 奥迪安卓系统安装指南:轻松升级车载娱乐体验一、了解奥迪安卓系统奥迪安卓系统是基于Android开源平...
安卓安装ppc系统,安卓系统安... 安卓系统安装到PPC设备上的详细教程一、准备工作在开始安装安卓系统之前,您需要做好以下准备工作: ...