358 篇论文, 最新知识图谱KG综述!
创始人
2024-06-02 09:20:46
0

获取结构化的人类知识是设计高级人工智能的重要基础。为此,早期研究者做了大量工作以从不同数据源中自动提取可以提供有用信息(事实)的数据模式;进一步地,学者的研究兴趣转向自动构建概念化的结构良好的知识图谱,而非仅提供信息的数据。

近年来,新的研究挑战亦开始深入多样化的复杂大数据环境中的知识工程。在上述具有历史意义的研究活动中涌现了大量具有开创性的重要知识图谱构建方法、新研究范式以及挑战。鉴于此,本综述对358篇相关文献进行了系统调研,对了知识图谱构建这一重要主题进行了详细总结。

本文全面阐释了知识图谱构建的主要3个阶段,包括知识获取、知识精炼、知识演化。具体地,本文按照数据环境、设计动机与模型架构三个方向,对处理上述各阶段中子任务的方法模型进行了比较、探讨。同时,为力求综述的全面性,本文也对图谱构建前的数据预处理与知识图谱构建后存储的相关方法进行了简介。

同时,本文简要回顾了重要的现有知识图谱成果(数据集)与处理知识图谱构建的各类先成工具。最后,本综述对10个具有重要现实意义的未来研究方向与挑战进行了讨论。

1.引言

知识图谱技术将可实现“赋能”的结构良好支撑知识提供给其下游人工智能应用,例如:搜索引擎[1]、推荐系统[2]和智能问答[3]。大量众所周知的大型知识图谱系统通过知识众包进行构建,如Freebase[4]和Wikidata[5]。然而该手工过程异常艰辛繁琐。因此,实现从非结构化或半结构化数据中自动构建知识图谱的系统方案将为知识图谱构建过程提供巨大帮助。

知识图谱为一个具有语义的图结构,其由描述真实世界对象知识的边和节点组成。在这些结构中,知识元组是承载知识的最小单位,其由表示概念的两个(实体)节点与连接二者表示关系的边连接。

因此,构建知识图谱的任务旨在从特定域或开放域数据中发现可构成知识图谱的合适元素并将其组合。在早期研究中,研究人员主要集中于从半结构化或非结构化文本数据中笼统地提取事实元组(仅由字符串构成、形似知识元组的模式结构)。

具有代表性的早期信息提取系统,例如:TextRunner[6]和Knownitall[7]为自动知识图构建的里程碑,其基于特点的规则或聚类方法进行构建、提取。然而,这些设计没有充分考虑背景知识,因此存在两个主要缺陷:

1)缺乏实质性,传统信息提取系统无法从不同的表达中创建或区分概念化的实体,其阻碍了整合知识的语义计算任务的进行;

2) 缺乏深层信息,传统信息提取系统仅从句法结构中提取信息,无法理解自然语言表达中的深层语义。此外,传统的基于规则的信息提取系统还需要大量的特征工程和额外的专家知识以完善。

著名数据科学家吴信东研究团队[8]指出,如果知识图谱系统不能结合有关概念实体的背景知识来组织图中节点和边,那么这样的“知识图谱”仅仅是一个数据图。

鉴于此,研究学者尝试将知识图谱构建任务划分为多个子任务以有效地组织语义知识结构。其中的经典的范式是首先进行实体识别,而后处理共指消解问题,然后提取实体间关系的知识获取过程。

在该过程完成后,对于粗加工的知识图谱进行知识精炼,其主要包括知识补全与知识融合两个过程。针对精炼后的知识图谱,成熟的知识图谱系统将对其已有的结构化数据进行知识演化分析,其主要包括:时序知识图谱与条件知识图谱的构建与完善。

本文总结的知识图谱构建一般过程如图1所示。与此同时,深度学习方法取得的进展为知识图谱构建任务提供了新的思路。针对知识获取任务中具体挑战,许多深度学习模型在诸如命名实体识别[9][10]、实体细分类[11][12]、实体链接[13][14]、共指消解[15]、关系抽取[16][17]等任务中都取得了良好的效果。

针对知识精炼任务,基于深度学习的方法亦在知识补全与针对不同规模知识图谱的知识融合任务中有明显的突破。此外,研究者也对时序知识图谱、条件知识图谱进行了进一步深入研究。目前,许多知识图谱项目TransOMCS[18]、ASER[19]和华谱系统[20]等亦将基于深度学习的高效自动知识图谱构建方法付诸与工程实践中。

图1:知识图谱构建的流程范式.

进一步地,随着互联网数据规模的急剧扩大,复杂、异构大数据环境为知识图谱构建带来挑战的同时也伴随着突破性的转机,例如:基于大数据集的预训练模型(以BERT[21]为代表)、建模复杂特征的大规模图卷积网络(GCN)模型。

结合上述新成果,学者亦开始攻克具有长上下文[22]、数据噪声 [23]与低资源特征[24]的复杂数据环境中知识图谱构建子任务以及提出基于联合学习的高效模型并寻求具有可解释性的高效机器学习方法。同时,针对跨语言数据中的知识获取与融合的研究也方兴未艾。

目前,对于涉及知识演化问题的时序知识图谱分析[25]与条件知识图谱分析[26]也有成果不断涌现。此外,针对自治知识社区(自发产生个性化数据的社区),主动学习方法[27]也为上述情景提供了人机交互的灵活知识获取策略。著名数据科学家吴信东研究团队[28]总结:上述大数据环境的特征符合HACE定理(异构、自治、复杂、演化)。在图2中,本文以HACE定理的视角总结了大数据背景下知识图谱构建任务的具体挑战。

图2:在HACE定理视角下知识图谱构建任务在大数据环境中面临的挑战.

大量已有调研工作[29-37]已针对知识图谱本身及其各类构建的一般过程或具体层面进行了调研,然而这些工作尚未对大数据环境下知识图谱构建的新进展与应对大数据挑战的特有范式进行系统性地总结。

因此,不同于已有调研,本文根据知识图谱构建不同阶段与大数据环境HACE特征的不同层面深入阐述近年来知识图谱构建方法模型的特点与范式,然后从具有前景的模型设计理念出发,展望未来的挑战和方向。

此外,本文也提供实用的数据集与知识图谱工具信息供读者参考。本文的贡献总结如下:

  • 丰富的资源信息:系统性地介绍了知识图谱构建的完整过程与最新进展,并对知识图谱及其构建过程给出了正式的定义和分类。本文还提供丰富的知识图谱构建资源,包括实用知识图谱项目和构建工具,其中包括出版年份、引文和访问链接,供读者比较参考。

  • 全面的总结、分类:根据知识图谱构建任务各阶段的任务背景、目标和挑战,详细阐述不同场景下的知识图谱构建模型–从知识获取到知识精炼。本文分析了经典模型与最新模型的设计特点与动机,结合大数据环境特征,根据他们的架构及改进点,总结出了其具有的新范式。

  • 大数据背景下的新视野:我们讨论了具有特征HACE大数据环境中的知识图谱构建任务,包括处理噪音数据、文档级数据(长上下文)和低资源数据。然后我们回顾、概括了针对知识演化分析任务与模型可解释性问题所取得的成果。最后,我们总结了对知识图谱构建任务具有深远影响的重要方向和挑战。

本综述(完整内容请参看:https://arxiv.org/abs/2302.05019)将主要围绕下述五个部分介绍知识图谱构建全过程,即数据预处理、知识获取、知识精炼、知识演化、知识图谱存储。

A.数据预处理

海量大数据环境中异构数据常包含无关的碎片噪音(例如:网页中广告、页面布局)以及半结构化的数据(例如:关系表格)。在进行知识获取前,应去除噪音以避免干扰,同时解析半结构化数据以提高效率。上述目标将在数据预处理过程实现。本节将简述数据清洗的常见方法与半结构化表格数据的解析方法。

B.知识获取

知识获取为知识图谱构建最为重要的过程,其为知识图谱系统提供可分析的结构化原材料,实现从非结构化数据中构建粗加工的知识图谱。其主要包括:实体识别、共指消解、关系抽取。

具体地,本节介绍实体识别的三个子任务,包括:命名实体识别、实体细分类、实体链接;然后介绍处理共指消解任务基于统计学方法与基于深度学习方法的两类模型。

最后,介绍各类情景中的关系抽取任务:开放关系抽取、封闭领域关系抽取、远程监督的关系抽取、小样本关系抽取、联合关系抽取、文档级关系抽取。本节将系统全面地介绍适用于非结构化文本与半结构化表格、网页的知识获取方法,包括:传统方法(基于统计学、聚类、SVM等)、早期深度学习方法(基于CNN、LSTM等方法)、高性能深度学习方法(基于预训练模型与GCN模型等方法)。

C.知识精炼

知识精炼任务针对结构化数据(已有知识图谱)进行进一步优化,实现从已有图谱中构建新图谱。其包括知识精炼与知识融合两个部分。针对知识图谱补全,本节将介绍补全知识图谱的方法、各种场景中进行知识推理的方法、可解释的知识推理模型。其主要包括各类嵌入学习方法与深度学习神经网络方法。针对知识融合任务,本节介绍适用于不同规模知识图谱的融合方法。其主要包括各类嵌入学习方法(大规模图)与基于统计学方法(小规模图)。

D.知识演化

针对已完善的知识图谱,知识演化分析知识图谱随时间演化的规律与演化的一般条件结构,将高级语义特征引入知识图谱。本节概述时序知识图谱与条件知识图谱的研究进展。这些成果主要基于各类深度神经网络。

E.知识图谱存储

在图谱构建过程完成后,大规模知识图谱的高性能存储是一个重要的主题。本节简介知识图谱存储的技术方案,主要包括:关系型数据库、键值对数据库、图数据。读者可以根据具体运用场景,选择高性能、易于实现的方案。

(参考文献详见Arxiv上预印本:https://arxiv.org/abs/2302.05019)

相关内容

热门资讯

鸿蒙其实还是安卓系统,揭开其背... 你知道吗?最近在科技圈里,有一个话题可是引起了不小的波澜呢!那就是鸿蒙系统,是不是听起来很高级?但别...
安卓刷机原系统,原系统深度解析... 你有没有想过,你的安卓手机是不是已经有点儿“老态龙钟”了呢?别急,别急,今天就来给你揭秘一下安卓刷机...
安卓java实现运行linux... 你有没有想过,在你的安卓手机上运行一个完整的Linux系统?听起来是不是很酷?想象你可以在安卓设备上...
安卓11系统的升级条件,满足升... 你有没有发现,你的安卓手机最近是不是有点儿“懒洋洋”的?别急,别急,这可能是安卓11系统在向你招手,...
王者荣耀安卓系统怎么转到ios... 你是不是也和我一样,对王者荣耀这款游戏爱得深沉呢?不过,最近是不是有点儿腻味了安卓系统的操作,想要换...
小米6刷成了安卓系统,从安卓原... 你有没有想过,你的小米6手机,原本是搭载着MIUI系统的,现在却焕然一新,变成了安卓原生系统的小清新...
安卓系统可以玩cozmo吗,畅... 你有没有想过,你的安卓手机里能不能玩到那些酷炫的智能玩具呢?比如,那个可爱的Cozmo机器人?今天,...
小米能装安卓系统吗,畅享丰富应... 你有没有想过,你的小米手机能不能装上安卓系统呢?这可是个让人好奇的问题,毕竟小米手机以其高性价比和丰...
王者在哪苹果转安卓系统,体验全... 你有没有想过,你的手机系统突然从苹果转到了安卓?是不是有点懵圈,不知道该怎么办?别急,今天就来给你详...
小米11系统是安卓7,探索性能... 你有没有发现,最近小米11的系统升级引起了不小的讨论呢?没错,就是那个安卓7.0的系统!今天,就让我...
各个版本安卓系统包大小,从早期... 你有没有发现,每次更新安卓系统,手机里的存储空间就像被小偷光顾了一样,不知不觉就少了好多?这可真是让...
省电又简约的安卓系统,安卓系统... 你有没有想过,手机系统也能像装修风格一样,简约而不简单呢?今天,就让我带你探索那些既省电又简约的安卓...
安卓系统里的计步器,健康生活新... 你有没有发现,每天手机里那个默默无闻的计步器,竟然成了你了解自己生活节奏的小助手?没错,就是安卓系统...
安卓系统发烧友,安卓系统发烧友... 亲爱的安卓系统发烧友,你是否曾为那流畅的操作、丰富的应用和独特的定制化功能而心动不已?安卓系统,这个...
安卓系统目前哪个最好,探索当前... 你有没有想过,手机里的安卓系统就像是一群各具特色的英雄,每个都有自己独特的技能和魅力。那么,问题来了...
安卓系统怎么把图标锁上,图标锁... 手机里的图标乱糟糟的,是不是也想给它们来个“小锁”,让它们乖乖待在原地呢?别急,今天就来教你怎么把安...
微软换账号注册安卓系统,安卓系... 你有没有想过,有一天你的安卓手机突然焕然一新,仿佛重获新生?这可不是普通的升级,而是因为微软的账号注...
怎么停止安卓系统更新,轻松关闭... 手机更新又来了!是不是每次安卓系统更新,你的手机都像被施了魔法,速度变慢,电池续航也跟着缩水?别急,...
股票买平板还是安卓系统,股票投... 最近是不是也被手机屏幕的诱惑给勾住了?想换一台新平板,但又纠结是买苹果的iPad还是安卓系统的平板呢...
iso系统比安卓安全,超越安卓... 你知道吗?在手机操作系统这个江湖里,ISO系统和安卓系统可是两大门派,各有所长。但今天,我要给你揭秘...