Retrieval Augmented Visual Question Answering with Outside Knowledge
创始人
2024-06-02 00:28:00
0

Paper name

Retrieval Augmented Visual Question Answering with Outside Knowledge

Paper Reading Note

URL: https://arxiv.org/pdf/2210.03809.pdf

TL;DR

  • EMNLP 2022 文章,提出名为 RA-VQA 的一种联合训练方案,该方案可以同时训练答案生成模块和文档检索模块,从而可以以端到端的方式训练系统

Introduction

背景

在这里插入图片描述

  • 外部知识视觉问答(OK-VQA)是一项具有挑战性的VQA任务,需要检索外部知识来回答有关图像的问题
  • 最近的OKVQA系统使用密集段落检索(DPR)从外部知识库(如维基百科)检索文档,但DPR与答案生成分开训练,这可能会限制系统的整体性能
  • 之前的工作 Retrieval Augmented Generation (RAG) 已经表明,基于DPR的QA系统端到端联合训练可以优于两步系统的 baseline;RAG 的一个显著特征是它的损失函数:它结合了检索到的文档的边缘似然,使得每当文档改进预测时,文档的训练分数都会增加。然而在 OK-VQA 上初步做 RAG 实验并没有好的效果,经过调查发现,OK-VQA训练问题中的很大一部分可以通过仅从图像中提取的信息以闭卷形式回答(即使用T5等预训练模型(Raffel等人,2020)),结果是RAG损失函数在文档上进行的 award 实际上没有助于回答问题;另外 OK-VQA 比 RAG 做实验的 Open QA 数据集更难,存在更多的无法用可检索的知识回答的疑难问题
    • 本文制定了一个损失函数,避免在存在不相关文档的情况下向检索模型发送误导信号

本文方案

  • 本文提出了一种联合训练方案,该方案包括与答案生成集成的可微DPR,从而可以以端到端的方式训练系统
  • 还引入了新的诊断指标来分析检索和生成是如何交互的
  • 本文模型的强大检索能力显著减少了训练中所需的检索文档数量,在训练所需的答案质量和计算资源方面产生了显著的好处
  • 本文主要贡献有
    • 提出了一种用于知识检索和答案生成的联合训练框架(RA-VQA),改进了Retrieval Augmented Generation (RAG) 和基于DPR的两步基线系统
    • 调查了转化为“语言空间”的视觉基础特征,并评估其对OK-VQA性能的贡献
    • 研究了文档检索在KB-VQA中的作用,并评估了其与检索增强生成的交互作用。同时还表明,在联合训练中,检索变得更加有效,需要在训练中检索相对较少的(~5)文档

Dataset/Algorithm/Model/Experiment Detail

实现方式

在这里插入图片描述

Vision-to-Language Transformation

  • 在RA-VQA中,每个图像都由视觉目标及其属性、图像标题和图像中检测到的任何文本字符串表示
    • 目标检测模型使用 VinVL,属性包括颜色和材质
    • 图像标题模型用的是 Oscar+
    • 文本字符串用 Google OCR API 来提取
  • 基于上述模型处理,视觉图片被处理为只有文本的训练集

Weakly-supervised Dense Passage Retrieval (DPR)

  • DPR 包含 query encoder 和 document encoder,都是 transformer 结构,目标是基于与 query 的相似性从外部数据库中检索出 K 个有助于回答问题的 document,相似性就是特征內积计算得到
    在这里插入图片描述
  • RA-VQA 在训练过程中对于 document 和回答问题相关时,最大化相似度 r(x, z)
    • 基于伪相关作为监督信号:当 document z 中包含答案时(通过字符串匹配)相关性为 1,否者为 0。DPR 的 loss 函数如下
      在这里插入图片描述
      其中 r+ 为正样本,r为负样本

Joint Training of Retrieval and Answer Generation

  • DPR 基于 query x 从数据库中检索出最相关的 document z,检索的 document 的分数基于如下公式计算
    在这里插入图片描述
  • 基于 T5 之类的文本模型生成答案
    在这里插入图片描述
  • 对于训练样本检索到的每个 document,都与 x concat 后生成答案 sk∗s_{k}^{*}sk∗​,对于答案集 S 中的答案,如果在 document 中则会被选择为 gt,如果 document 中不包含任何答案,则选择 S 中最 popular (OKVQA 每个问题有5个标注员,投票最多的答案是最 popular) 的答案作为 gt
  • 基于模型预测结果和伪相关标签将检索的 document 分为两类
    在这里插入图片描述
    P+ 是伪相关文档的索引,同时也有助于模型生成 popular 答案;P- 是指不利于生成答案的文档,训练loss 如下
    在这里插入图片描述
    损失中的第一项改进了从查询和检索到的文档中生成答案的能力;其余项影响文档检索能力:第二个 loss 鼓励检索不仅伪相关而且能够产生正确答案的文档,而第三个术语用于从排名靠前的检索文档中删除不相关的项目。信息流示意图如下
    在这里插入图片描述
    检索和生成在训练中相辅相成:伪相关性标签和模型预测为改进检索提供了积极和消极的信号,而改进的检索通过对 sk∗s_{k}^{*}sk∗​ 的训练改进了答案生成(因为对每个检索到的 document 都生成了答案)

RA-VQA Generation

  • 联合检索和生成的置信度确定最终答案
    在这里插入图片描述

实验结果

实验配置

  • 知识库选择用 corpus GS-full:包含 168,306 documents
  • 知识库检索模型用 BERT-base
  • 答案生成模型用 T5-large
  • 本文方法的变种模型
    • RA-VQA-NoDPR:完全省略检索,因此仅通过微调T5生成答案,即答案生成简化为
      在这里插入图片描述
    • RA-VQA-FrDPR:检索模型固定参数,只对答案生成模型进行 finetune
    • RA-VQA-NoPR:文档检索模型仅使用模型预测进行训练,即正负样本定义修改为如下
      在这里插入图片描述
    • RA-VQA-NoCT:gt 直接使用答案集中最 popular 的答案

评价指标

  • VQA Score:与 OK-VQA 数据集提出的指标一样
    在这里插入图片描述
    #S (y) 是标注 y 的标注员数目。这个分数确保了模型得到部分奖励,即使它从人类的反应中产生了一个不太受欢迎的答案
  • Exact Match (EM):对人类标注的标签平等对待
    在这里插入图片描述

与 SOTA 对比

  • 与类似的工作 TRiG 相比精度更高;与 KAT-T5 比也是有很大优势;与带 GPT-3 的 KAT 比精度差不多,不过 GPT-3 参数量大
    在这里插入图片描述

Thoughts

  • end-to-end 对文档检索模块和答案生成模块都进行联合训练看起来是很科学的,相比于类似计算量的 KAT-T5 优势很明显

相关内容

热门资讯

纯安卓系统屏幕不亮,安卓屏幕不... 手机屏幕突然不亮了,这可怎么办呢?别急,今天就来和你聊聊纯安卓系统屏幕不亮的那些事儿。无论是工作还是...
安卓系统和ios系统流畅性,谁... 你有没有发现,手机用久了,有时候就像老牛拉车一样,慢吞吞的,让人抓狂?这不,最近我在网上看到很多人在...
华为鸿蒙是安卓系统吗,揭秘其与... 你有没有听说最近华为推出的一款操作系统——鸿蒙?是不是好奇它是不是安卓系统呢?别急,今天就来给你揭秘...
丰田亚洲龙车机安卓系统,智能驾... 亲爱的车迷朋友们,今天我要和你聊聊一款车界的明星——丰田亚洲龙,还有它那让人眼前一亮的安卓系统。想象...
怎么备份安卓系统软件 你有没有想过,如果你的安卓手机突然间“失忆”了,所有的软件和设置都消失了,那会是多么糟糕的事情啊!别...
平板安卓系统和ios系统哪个好... 你有没有想过,为什么你的朋友总是一副“我手机里的应用比你的多,我平板里的游戏比你的炫酷”的样子?这背...
外置安卓系统是什么,便携式智能... 你有没有想过,为什么你的手机可以玩那么多的游戏,看那么多的视频,却总觉得有点力不从心呢?其实,这都得...
金立咋升级安卓系统,轻松迈向新... 你有没有发现,金立手机最近好像悄悄地升级了安卓系统呢?这可真是让人眼前一亮啊!今天,就让我带你一起探...
安卓原生系统怎么分屏 你有没有想过,在安卓手机上,如何一边看视频一边回复消息呢?或者一边浏览网页一边写邮件?分屏功能简直就...
钉钉密聊安卓系统,隐私安全与便... 你知道吗?在数字化办公的世界里,钉钉这款软件可是很多人的得力助手。尤其是它的密聊功能,简直是保护隐私...
安卓系统将逐渐闭源,“安卓系统... 你知道吗?最近有个大新闻在科技圈里炸开了锅——安卓系统将逐渐闭源!这可不是闹着玩的,它可是影响着我们...
安卓车载系统支持carplay... 你有没有发现,现在开车的时候,手机和车载系统之间的互动越来越紧密了?想象一边听着动感的音乐,一边导航...
老手机升级安卓13系统,安卓1... 你那台用了好多年的手机,是不是还在用着安卓10或者11的系统呢?别急,今天就来给你揭秘如何让你的老手...
安卓系统的手机导航软件,引领您... 你有没有发现,现在出门在外,手机导航软件简直成了我们的“小向导”,无论你是去陌生的城市,还是只是想换...
安卓系统开发单位,技术革新与产... 你有没有想过,那些陪伴我们日常生活的安卓手机,背后其实有着一群默默无闻的开发团队在辛勤工作呢?他们就...
安卓系统电话区域拦截,智能守护... 你有没有遇到过那种电话,每次接起来都是推销保险的、办信用卡的,或者是那种让你帮忙填问卷的?真是烦死了...
安卓系统优酷代理使用,畅享高清... 你有没有发现,现在用安卓手机看视频,有时候会遇到播放卡顿、广告满天飞的情况?别急,今天就来给你揭秘如...
微信运动适合安卓系统,解锁健康... 你知道吗?现在手机上有个超好玩的运动应用,叫微信运动,它不仅能记录你的步数,还能和朋友们比一比谁更活...
安卓系统kodi怎么设置中文,... 你有没有发现,安卓系统上的Kodi播放器简直就是家庭影院的神器啊!不过,用起来是不是觉得有点小麻烦?...
安卓系统显示信号强度 你有没有发现,每次拿出手机,安卓系统的信号强度显示总是让人摸不着头脑?有时候信号满格,却感觉网速慢得...