Retrieval Augmented Visual Question Answering with Outside Knowledge
创始人
2024-06-02 00:28:00
0

Paper name

Retrieval Augmented Visual Question Answering with Outside Knowledge

Paper Reading Note

URL: https://arxiv.org/pdf/2210.03809.pdf

TL;DR

  • EMNLP 2022 文章,提出名为 RA-VQA 的一种联合训练方案,该方案可以同时训练答案生成模块和文档检索模块,从而可以以端到端的方式训练系统

Introduction

背景

在这里插入图片描述

  • 外部知识视觉问答(OK-VQA)是一项具有挑战性的VQA任务,需要检索外部知识来回答有关图像的问题
  • 最近的OKVQA系统使用密集段落检索(DPR)从外部知识库(如维基百科)检索文档,但DPR与答案生成分开训练,这可能会限制系统的整体性能
  • 之前的工作 Retrieval Augmented Generation (RAG) 已经表明,基于DPR的QA系统端到端联合训练可以优于两步系统的 baseline;RAG 的一个显著特征是它的损失函数:它结合了检索到的文档的边缘似然,使得每当文档改进预测时,文档的训练分数都会增加。然而在 OK-VQA 上初步做 RAG 实验并没有好的效果,经过调查发现,OK-VQA训练问题中的很大一部分可以通过仅从图像中提取的信息以闭卷形式回答(即使用T5等预训练模型(Raffel等人,2020)),结果是RAG损失函数在文档上进行的 award 实际上没有助于回答问题;另外 OK-VQA 比 RAG 做实验的 Open QA 数据集更难,存在更多的无法用可检索的知识回答的疑难问题
    • 本文制定了一个损失函数,避免在存在不相关文档的情况下向检索模型发送误导信号

本文方案

  • 本文提出了一种联合训练方案,该方案包括与答案生成集成的可微DPR,从而可以以端到端的方式训练系统
  • 还引入了新的诊断指标来分析检索和生成是如何交互的
  • 本文模型的强大检索能力显著减少了训练中所需的检索文档数量,在训练所需的答案质量和计算资源方面产生了显著的好处
  • 本文主要贡献有
    • 提出了一种用于知识检索和答案生成的联合训练框架(RA-VQA),改进了Retrieval Augmented Generation (RAG) 和基于DPR的两步基线系统
    • 调查了转化为“语言空间”的视觉基础特征,并评估其对OK-VQA性能的贡献
    • 研究了文档检索在KB-VQA中的作用,并评估了其与检索增强生成的交互作用。同时还表明,在联合训练中,检索变得更加有效,需要在训练中检索相对较少的(~5)文档

Dataset/Algorithm/Model/Experiment Detail

实现方式

在这里插入图片描述

Vision-to-Language Transformation

  • 在RA-VQA中,每个图像都由视觉目标及其属性、图像标题和图像中检测到的任何文本字符串表示
    • 目标检测模型使用 VinVL,属性包括颜色和材质
    • 图像标题模型用的是 Oscar+
    • 文本字符串用 Google OCR API 来提取
  • 基于上述模型处理,视觉图片被处理为只有文本的训练集

Weakly-supervised Dense Passage Retrieval (DPR)

  • DPR 包含 query encoder 和 document encoder,都是 transformer 结构,目标是基于与 query 的相似性从外部数据库中检索出 K 个有助于回答问题的 document,相似性就是特征內积计算得到
    在这里插入图片描述
  • RA-VQA 在训练过程中对于 document 和回答问题相关时,最大化相似度 r(x, z)
    • 基于伪相关作为监督信号:当 document z 中包含答案时(通过字符串匹配)相关性为 1,否者为 0。DPR 的 loss 函数如下
      在这里插入图片描述
      其中 r+ 为正样本,r为负样本

Joint Training of Retrieval and Answer Generation

  • DPR 基于 query x 从数据库中检索出最相关的 document z,检索的 document 的分数基于如下公式计算
    在这里插入图片描述
  • 基于 T5 之类的文本模型生成答案
    在这里插入图片描述
  • 对于训练样本检索到的每个 document,都与 x concat 后生成答案 sk∗s_{k}^{*}sk∗​,对于答案集 S 中的答案,如果在 document 中则会被选择为 gt,如果 document 中不包含任何答案,则选择 S 中最 popular (OKVQA 每个问题有5个标注员,投票最多的答案是最 popular) 的答案作为 gt
  • 基于模型预测结果和伪相关标签将检索的 document 分为两类
    在这里插入图片描述
    P+ 是伪相关文档的索引,同时也有助于模型生成 popular 答案;P- 是指不利于生成答案的文档,训练loss 如下
    在这里插入图片描述
    损失中的第一项改进了从查询和检索到的文档中生成答案的能力;其余项影响文档检索能力:第二个 loss 鼓励检索不仅伪相关而且能够产生正确答案的文档,而第三个术语用于从排名靠前的检索文档中删除不相关的项目。信息流示意图如下
    在这里插入图片描述
    检索和生成在训练中相辅相成:伪相关性标签和模型预测为改进检索提供了积极和消极的信号,而改进的检索通过对 sk∗s_{k}^{*}sk∗​ 的训练改进了答案生成(因为对每个检索到的 document 都生成了答案)

RA-VQA Generation

  • 联合检索和生成的置信度确定最终答案
    在这里插入图片描述

实验结果

实验配置

  • 知识库选择用 corpus GS-full:包含 168,306 documents
  • 知识库检索模型用 BERT-base
  • 答案生成模型用 T5-large
  • 本文方法的变种模型
    • RA-VQA-NoDPR:完全省略检索,因此仅通过微调T5生成答案,即答案生成简化为
      在这里插入图片描述
    • RA-VQA-FrDPR:检索模型固定参数,只对答案生成模型进行 finetune
    • RA-VQA-NoPR:文档检索模型仅使用模型预测进行训练,即正负样本定义修改为如下
      在这里插入图片描述
    • RA-VQA-NoCT:gt 直接使用答案集中最 popular 的答案

评价指标

  • VQA Score:与 OK-VQA 数据集提出的指标一样
    在这里插入图片描述
    #S (y) 是标注 y 的标注员数目。这个分数确保了模型得到部分奖励,即使它从人类的反应中产生了一个不太受欢迎的答案
  • Exact Match (EM):对人类标注的标签平等对待
    在这里插入图片描述

与 SOTA 对比

  • 与类似的工作 TRiG 相比精度更高;与 KAT-T5 比也是有很大优势;与带 GPT-3 的 KAT 比精度差不多,不过 GPT-3 参数量大
    在这里插入图片描述

Thoughts

  • end-to-end 对文档检索模块和答案生成模块都进行联合训练看起来是很科学的,相比于类似计算量的 KAT-T5 优势很明显

相关内容

热门资讯

电视安卓系统哪个品牌好,哪家品... 你有没有想过,家里的电视是不是该升级换代了呢?现在市面上电视品牌琳琅满目,各种操作系统也是让人眼花缭...
安卓会员管理系统怎么用,提升服... 你有没有想过,手机里那些你爱不释手的APP,背后其实有个强大的会员管理系统在默默支持呢?没错,就是那...
安卓系统软件使用技巧,解锁软件... 你有没有发现,用安卓手机的时候,总有一些小技巧能让你玩得更溜?别小看了这些小细节,它们可是能让你的手...
安卓系统提示音替换 你知道吗?手机里那个时不时响起的提示音,有时候真的能让人心情大好,有时候又让人抓狂不已。今天,就让我...
安卓开机不了系统更新 手机突然开不了机,系统更新还卡在那里,这可真是让人头疼的问题啊!你是不是也遇到了这种情况?别急,今天...
安卓系统中微信视频,安卓系统下... 你有没有发现,现在用手机聊天,视频通话简直成了标配!尤其是咱们安卓系统的小伙伴们,微信视频功能更是用...
安卓系统是服务器,服务器端的智... 你知道吗?在科技的世界里,安卓系统可是个超级明星呢!它不仅仅是个手机操作系统,竟然还能成为服务器的得...
pc电脑安卓系统下载软件,轻松... 你有没有想过,你的PC电脑上安装了安卓系统,是不是瞬间觉得世界都大不一样了呢?没错,就是那种“一机在...
电影院购票系统安卓,便捷观影新... 你有没有想过,在繁忙的生活中,一部好电影就像是一剂强心针,能瞬间让你放松心情?而我今天要和你分享的,...
安卓系统可以写程序? 你有没有想过,安卓系统竟然也能写程序呢?没错,你没听错!这个我们日常使用的智能手机操作系统,竟然有着...
安卓系统架构书籍推荐,权威书籍... 你有没有想过,想要深入了解安卓系统架构,却不知道从何下手?别急,今天我就要给你推荐几本超级实用的书籍...
安卓系统看到的炸弹,技术解析与... 安卓系统看到的炸弹——揭秘手机中的隐形威胁在数字化时代,智能手机已经成为我们生活中不可或缺的一部分。...
鸿蒙系统有安卓文件,畅享多平台... 你知道吗?最近在科技圈里,有个大新闻可是闹得沸沸扬扬的,那就是鸿蒙系统竟然有了安卓文件!是不是觉得有...
宝马安卓车机系统切换,驾驭未来... 你有没有发现,现在的汽车越来越智能了?尤其是那些豪华品牌,比如宝马,它们的内饰里那个大屏幕,简直就像...
p30退回安卓系统 你有没有听说最近P30的用户们都在忙活一件大事?没错,就是他们的手机要退回安卓系统啦!这可不是一个简...
oppoa57安卓原生系统,原... 你有没有发现,最近OPPO A57这款手机在安卓原生系统上的表现真是让人眼前一亮呢?今天,就让我带你...
安卓系统输入法联想,安卓系统输... 你有没有发现,手机上的输入法真的是个神奇的小助手呢?尤其是安卓系统的输入法,简直就是智能生活的点睛之...
怎么进入安卓刷机系统,安卓刷机... 亲爱的手机控们,你是否曾对安卓手机的刷机系统充满好奇?想要解锁手机潜能,体验全新的系统魅力?别急,今...
安卓系统程序有病毒 你知道吗?在这个数字化时代,手机已经成了我们生活中不可或缺的好伙伴。但是,你知道吗?即使是安卓系统,...
奥迪中控安卓系统下载,畅享智能... 你有没有发现,现在汽车的中控系统越来越智能了?尤其是奥迪这种豪华品牌,他们的中控系统简直就是科技与艺...