Retrieval Augmented Visual Question Answering with Outside Knowledge
创始人
2024-06-02 00:28:00
0

Paper name

Retrieval Augmented Visual Question Answering with Outside Knowledge

Paper Reading Note

URL: https://arxiv.org/pdf/2210.03809.pdf

TL;DR

  • EMNLP 2022 文章,提出名为 RA-VQA 的一种联合训练方案,该方案可以同时训练答案生成模块和文档检索模块,从而可以以端到端的方式训练系统

Introduction

背景

在这里插入图片描述

  • 外部知识视觉问答(OK-VQA)是一项具有挑战性的VQA任务,需要检索外部知识来回答有关图像的问题
  • 最近的OKVQA系统使用密集段落检索(DPR)从外部知识库(如维基百科)检索文档,但DPR与答案生成分开训练,这可能会限制系统的整体性能
  • 之前的工作 Retrieval Augmented Generation (RAG) 已经表明,基于DPR的QA系统端到端联合训练可以优于两步系统的 baseline;RAG 的一个显著特征是它的损失函数:它结合了检索到的文档的边缘似然,使得每当文档改进预测时,文档的训练分数都会增加。然而在 OK-VQA 上初步做 RAG 实验并没有好的效果,经过调查发现,OK-VQA训练问题中的很大一部分可以通过仅从图像中提取的信息以闭卷形式回答(即使用T5等预训练模型(Raffel等人,2020)),结果是RAG损失函数在文档上进行的 award 实际上没有助于回答问题;另外 OK-VQA 比 RAG 做实验的 Open QA 数据集更难,存在更多的无法用可检索的知识回答的疑难问题
    • 本文制定了一个损失函数,避免在存在不相关文档的情况下向检索模型发送误导信号

本文方案

  • 本文提出了一种联合训练方案,该方案包括与答案生成集成的可微DPR,从而可以以端到端的方式训练系统
  • 还引入了新的诊断指标来分析检索和生成是如何交互的
  • 本文模型的强大检索能力显著减少了训练中所需的检索文档数量,在训练所需的答案质量和计算资源方面产生了显著的好处
  • 本文主要贡献有
    • 提出了一种用于知识检索和答案生成的联合训练框架(RA-VQA),改进了Retrieval Augmented Generation (RAG) 和基于DPR的两步基线系统
    • 调查了转化为“语言空间”的视觉基础特征,并评估其对OK-VQA性能的贡献
    • 研究了文档检索在KB-VQA中的作用,并评估了其与检索增强生成的交互作用。同时还表明,在联合训练中,检索变得更加有效,需要在训练中检索相对较少的(~5)文档

Dataset/Algorithm/Model/Experiment Detail

实现方式

在这里插入图片描述

Vision-to-Language Transformation

  • 在RA-VQA中,每个图像都由视觉目标及其属性、图像标题和图像中检测到的任何文本字符串表示
    • 目标检测模型使用 VinVL,属性包括颜色和材质
    • 图像标题模型用的是 Oscar+
    • 文本字符串用 Google OCR API 来提取
  • 基于上述模型处理,视觉图片被处理为只有文本的训练集

Weakly-supervised Dense Passage Retrieval (DPR)

  • DPR 包含 query encoder 和 document encoder,都是 transformer 结构,目标是基于与 query 的相似性从外部数据库中检索出 K 个有助于回答问题的 document,相似性就是特征內积计算得到
    在这里插入图片描述
  • RA-VQA 在训练过程中对于 document 和回答问题相关时,最大化相似度 r(x, z)
    • 基于伪相关作为监督信号:当 document z 中包含答案时(通过字符串匹配)相关性为 1,否者为 0。DPR 的 loss 函数如下
      在这里插入图片描述
      其中 r+ 为正样本,r为负样本

Joint Training of Retrieval and Answer Generation

  • DPR 基于 query x 从数据库中检索出最相关的 document z,检索的 document 的分数基于如下公式计算
    在这里插入图片描述
  • 基于 T5 之类的文本模型生成答案
    在这里插入图片描述
  • 对于训练样本检索到的每个 document,都与 x concat 后生成答案 sk∗s_{k}^{*}sk∗​,对于答案集 S 中的答案,如果在 document 中则会被选择为 gt,如果 document 中不包含任何答案,则选择 S 中最 popular (OKVQA 每个问题有5个标注员,投票最多的答案是最 popular) 的答案作为 gt
  • 基于模型预测结果和伪相关标签将检索的 document 分为两类
    在这里插入图片描述
    P+ 是伪相关文档的索引,同时也有助于模型生成 popular 答案;P- 是指不利于生成答案的文档,训练loss 如下
    在这里插入图片描述
    损失中的第一项改进了从查询和检索到的文档中生成答案的能力;其余项影响文档检索能力:第二个 loss 鼓励检索不仅伪相关而且能够产生正确答案的文档,而第三个术语用于从排名靠前的检索文档中删除不相关的项目。信息流示意图如下
    在这里插入图片描述
    检索和生成在训练中相辅相成:伪相关性标签和模型预测为改进检索提供了积极和消极的信号,而改进的检索通过对 sk∗s_{k}^{*}sk∗​ 的训练改进了答案生成(因为对每个检索到的 document 都生成了答案)

RA-VQA Generation

  • 联合检索和生成的置信度确定最终答案
    在这里插入图片描述

实验结果

实验配置

  • 知识库选择用 corpus GS-full:包含 168,306 documents
  • 知识库检索模型用 BERT-base
  • 答案生成模型用 T5-large
  • 本文方法的变种模型
    • RA-VQA-NoDPR:完全省略检索,因此仅通过微调T5生成答案,即答案生成简化为
      在这里插入图片描述
    • RA-VQA-FrDPR:检索模型固定参数,只对答案生成模型进行 finetune
    • RA-VQA-NoPR:文档检索模型仅使用模型预测进行训练,即正负样本定义修改为如下
      在这里插入图片描述
    • RA-VQA-NoCT:gt 直接使用答案集中最 popular 的答案

评价指标

  • VQA Score:与 OK-VQA 数据集提出的指标一样
    在这里插入图片描述
    #S (y) 是标注 y 的标注员数目。这个分数确保了模型得到部分奖励,即使它从人类的反应中产生了一个不太受欢迎的答案
  • Exact Match (EM):对人类标注的标签平等对待
    在这里插入图片描述

与 SOTA 对比

  • 与类似的工作 TRiG 相比精度更高;与 KAT-T5 比也是有很大优势;与带 GPT-3 的 KAT 比精度差不多,不过 GPT-3 参数量大
    在这里插入图片描述

Thoughts

  • end-to-end 对文档检索模块和答案生成模块都进行联合训练看起来是很科学的,相比于类似计算量的 KAT-T5 优势很明显

相关内容

热门资讯

瑞天 图书 收钱吗-瑞天书店,... 哎呀,说到这个瑞天书店,我真是哭笑不得!你知道吗,每次我走进去,心里都在打鼓,这家店到底收不收钱?首...
朝阳医院电话是多少-朝阳医院电... 哎呀,说到朝阳医院的电话,我可是有一肚子的话要说!你知道吗,每次有个头疼脑热,我就得翻箱倒柜找那张写...
触动内心的悸动画:简单风景与故... 在这个喧嚣的世界里,总有一些画面能够触动内心最柔软的地方,它们就像是一幅幅悸动画,让我们的心跳不由自...
gps精确度-GPS 导航:是... 哎呀,说到GPS,我这心里就五味杂陈啊!你有没有过那种经历,明明跟着GPS走,结果却走进了个死胡同,...
safari浏览器书签同步-S... 嘿,亲爱的Safari用户们,你们有没有经历过那种心碎的瞬间——当你在一台新电脑上打开Safari,...
c反应蛋白肺炎-C 反应蛋白:... 哎呀,最近这C反应蛋白啊,简直成了我们健康的晴雨表。一听到这个名字,心里就不由得咯噔一下。这不,最近...
recover4all怎么注册... 哎呀,说到这个Recover4All注册,真是让人又爱又恨!你想啊,这个软件这么神奇,能帮你找回那些...
ubuntu 17.04 dv... 哟,大家好!今天我要聊聊我那个闪闪发光的宝贝——Ubuntu17.04DVD。这可不是普通的DVD哦...
刺客信条以停止工作-刺客信条总... 哎呀,我的天!刺客信条,你这是怎么了?每次我兴冲冲地点开你,想要在那些古老的街巷里飞檐走壁,你却总是...
盗版gta5mod安装教程-盗... 哎呀,说到这个盗版GTA5Mod安装教程,我真的气不打一处来!你们这些新手玩家,听我说,千万别被那些...
警惕!可移动磁盘病毒来袭,如何... 哎呀,说到这个可移动磁盘病毒,我就一肚子火!你想想,本来这小小的U盘,是我们传递文件的好帮手,现在倒...
监控布线图解-探秘监控布线世界... 大家好,我是你们的“探秘小能手”,今天我们要一起潜入那些神秘的监控布线世界,揭开它们的神秘面纱!是不...
洋地黄类药物治疗护理-洋地黄:... 哎呀,说到洋地黄,这可是我们医护人员心中的“老朋友”了!别看它名字土土的,作用可大着呢!这小家伙,专...
逆魂界7.25攻略-7.25 ... 嘿,各位逆魂界的战士们!今天我要带你们深入7.25版本的攻略,这可不是一般的战斗,这是热血与汗水的较...
克罗恩病是重大疾病吗-克罗恩病... 克罗恩病,这个名字听起来就像是来自某个遥远星球的神秘疾病,但实际上,它就在我们身边,悄无声息地侵蚀着...
电脑换64位系统怎么换-电脑换... 哎呀,说到电脑换64位系统,我这心里就像过山车一样,七上八下的。刚开始,我还以为这事儿多难呢,结果一...
qq空间 邮箱无法打开-QQ ... 哎哟喂,今天真是倒霉透顶了!我刚刚想查一下我的QQ空间邮箱,看看有没有什么重要消息,结果呢?页面愣是...
数组初始化为1-编程世界里数组... 哎呀,说到数组初始化为1,我这心里就有点儿小情绪!你说说,这编程世界里,数组咋就这么爱1呢?每次新建...
aceru盘重装系统-Acer... 大家好,我今天真的是要哭出来了!我的Acer笔记本最近卡得不行,打开个网页都要等半天,简直让人抓狂。...
赵丽颖雅虎搜星视频-重温雅虎搜... 哎呀,说到赵丽颖,我就忍不住激动起来!你们看过她在雅虎搜星的视频吗?那简直是太迷人了!记得第一次看到...