【计算机视觉 自然语言处理】什么是多模态?
创始人
2024-05-30 14:42:31
0

文章目录

  • 一、多模态的定义
  • 二、多模态的任务
    • 2.1 VQA(Visual Question Answering)视觉问答
    • 2.2 Image Caption 图像字幕
    • 2.3 Referring Expression Comprehension 指代表达
    • 2.4 Visual Dialogue 视觉对话
    • 2.5 VCR (Visual Commonsense Reasoning) 视觉常识推理
    • 2.6 NLVR(Natural Language for Visual Reasoning)自然语言视觉推理
    • 2.7 Visual Entailment 视觉蕴含
    • 2.8 Image-Text Retrieval 图文检索
  • 三、多模态融合的方式
    • 3.1 点乘或者直接追加
    • 3.2 Transformer

一、多模态的定义

多模态指的是多种模态的信息,包括:文本、图像、视频、音频等。

顾名思义,多模态研究的就是这些不同类型的数据的融合的问题。

目前大多数工作中,只处理图像和文本形式的数据,即把视频数据转为图像,把音频数据转为文本格式。这就涉及到图像和文本领域的内容。

二、多模态的任务

多模态研究的是视觉语言问题,其任务是关于图像和文字的分类、问答、匹配、排序、定位等问题。

例如给定一张图片,可以完成以下任务:

2.1 VQA(Visual Question Answering)视觉问答

  • 输入:一张图片、一个自然语言描述的问题
  • 输出:答案(单词或者短语)

2.2 Image Caption 图像字幕

  • 输入:一张图片
  • 输出:图片的自然语言描述(一个句子)

2.3 Referring Expression Comprehension 指代表达

  • 输入:一张图片、一个自然语言描述的句子
  • 输出:判断句子描述的内容(正确或错误)

2.4 Visual Dialogue 视觉对话

  • 输入:一张图片
  • 输出:两个角色进行多次交互、对话

2.5 VCR (Visual Commonsense Reasoning) 视觉常识推理

  • 输入:1个问题,4个备选答案,4个理由
  • 输出:正确答案,和理由

2.6 NLVR(Natural Language for Visual Reasoning)自然语言视觉推理

  • 输入:2张图片,一个分布
  • 输出:true或false

2.7 Visual Entailment 视觉蕴含

  • 输入:图像、文本
  • 输出:3种label的概率。(entailment、neutral、contradiction)蕴含、中性、矛盾

2.8 Image-Text Retrieval 图文检索

有3种方式。

1)以图搜文。输入图片,输出文本

2)以文搜图。输入文本,输出图片

3)以图搜图,输入图片,输出图片

三、多模态融合的方式

通过NLP的预训练模型,可以得到文本的嵌入表示;再结合图像和视觉领域的预训练模型,可以得到图像的嵌入表示;那么,如何将两者融合起来,来完成以上的各种任务呢?

常用的多模态交叉的方式有两种:

3.1 点乘或者直接追加

此种方式将文本和图像分别进行Embedding,之后将各自的向量进行追加或者点乘。

好处是简单方便,计算成本也比较低。

在这里插入图片描述

在这里插入图片描述

3.2 Transformer

其好处是利用了Transformer架构,能够更好地进行图像特征和文本特征的表示。

缺点是占用空间大,计算成本较高。

在这里插入图片描述

相关内容

热门资讯

122.(leaflet篇)l... 听老人家说:多看美女会长寿 地图之家总目录(订阅之前建议先查看该博客) 文章末尾处提供保证可运行...
育碧GDC2018程序化大世界... 1.传统手动绘制森林的问题 采用手动绘制的方法的话,每次迭代地形都要手动再绘制森林。这...
育碧GDC2018程序化大世界... 1.传统手动绘制森林的问题 采用手动绘制的方法的话,每次迭代地形都要手动再绘制森林。这...
Vue使用pdf-lib为文件... 之前也写过两篇预览pdf的,但是没有加水印,这是链接:Vu...
PyQt5数据库开发1 4.1... 文章目录 前言 步骤/方法 1 使用windows身份登录 2 启用混合登录模式 3 允许远程连接服...
Android studio ... 解决 Android studio 出现“The emulator process for AVD ...
Linux基础命令大全(上) ♥️作者:小刘在C站 ♥️个人主页:小刘主页 ♥️每天分享云计算网络运维...
再谈解决“因为文件包含病毒或潜... 前面出了一篇博文专门来解决“因为文件包含病毒或潜在的垃圾软件”的问题,其中第二种方法有...
南京邮电大学通达学院2023c... 题目展示 一.问题描述 实验题目1 定义一个学生类,其中包括如下内容: (1)私有数据成员 ①年龄 ...
PageObject 六大原则 PageObject六大原则: 1.封装服务的方法 2.不要暴露页面的细节 3.通过r...
【Linux网络编程】01:S... Socket多进程 OVERVIEWSocket多进程1.Server2.Client3.bug&...
数据结构刷题(二十五):122... 1.122. 买卖股票的最佳时机 II思路:贪心。把利润分解为每天为单位的维度,然后收...
浏览器事件循环 事件循环 浏览器的进程模型 何为进程? 程序运行需要有它自己专属的内存空间࿰...
8个免费图片/照片压缩工具帮您... 继续查看一些最好的图像压缩工具,以提升用户体验和存储空间以及网站使用支持。 无数图像压...
计算机二级Python备考(2... 目录  一、选择题 1.在Python语言中: 2.知识点 二、基本操作题 1. j...
端电压 相电压 线电压 记得刚接触矢量控制的时候,拿到板子,就赶紧去测各种波形,结...
如何使用Python检测和识别... 车牌检测与识别技术用途广泛,可以用于道路系统、无票停车场、车辆门禁等。这项技术结合了计...
带环链表详解 目录 一、什么是环形链表 二、判断是否为环形链表 2.1 具体题目 2.2 具体思路 2.3 思路的...
【C语言进阶:刨根究底字符串函... 本节重点内容: 深入理解strcpy函数的使用学会strcpy函数的模拟实现⚡strc...
Django web开发(一)... 文章目录前端开发1.快速开发网站2.标签2.1 编码2.2 title2.3 标题2.4 div和s...