admin管理员组

文章数量:1530013

编者按

北京大学数据管理实验室薛冰聪硕士关于知识图谱质量控制的综述Knowledge Graph Quality Management: a Comprehensive Survey》被 TKDE 2022 接收。

知识图谱以结构化的形式表示现实世界中的实体和关系,是人工智能技术发展的基石。随着DBpedia、YAGO等大规模图谱的构建和发布,知识图谱在信息检索、智能问答、推荐系统等任务中发挥着越来越重要的作用。但是,现有知识图谱普遍存在着质量问题,如不完整、不准确、不一致等。而另一方面,数据质量的研究有很长的发展历史,也催生了一系列工具和算法。近年来,越来越多的工作考虑到知识图谱质量问题,并提出了若干专用于知识图谱的质量控制方法。

这篇文章对知识图谱质量控制问题展开了广泛的综述,内容不仅包括质量控制的基本概念如问题、维度和指标,也涵盖了质量控制从评估、问题发现到质量提升的全流程,对不同工作中提出的方法,按照多个维度进行分类。在文章最后对现有工作进行讨论和总结,并提出了若干有潜力的未来发展方向。

论文地址:

https://ieeexplore.ieee/document/9709663

(或点击文末“阅读原文”跳转)

一、背景知识

1. 数据质量基础

数据的数量和质量宛如一枚硬币的两面,对数据管理同样重要。大数据时代人们往往更关注数据的数量,对质量问题的重视程度不够。

数据质量好坏与具体任务相关,没有一个完全统一的定义,通常用“fit for use”或“free of defects”来解释。评估数据质量的不同方面形成了不同的维度,大致可以分为内部维度和外部维度两种,前者包括准确性、完整性、一致性、时效性、冗余性等问题,反映了数据本身的特性;后者如可获得性、表征性等,往往与下游任务相关。与质量维度相伴的数据质量指标,则给出了评估不同维度的具体计算方式。

数据从诞生到应用存在不同的生命周期,质量问题会存在于生命周期的各个阶段。质量管理任务也可以在各个阶段进行,主要包括质量评估、问题发现和质量提升三个过程。

2、从数据质量到知识图谱质量

数据质量有近30年的研究历史,而知识图谱质量研究则是近几年才开始的。知识图谱质量可以视为数据质量研究的子类,可以考虑迁移现有的质量控制方法,也可以研究专用于知识图谱的质量控制方法并扩展到一般的数据类型。

传统关系数据常用的一种质量控制方法是函数依赖(对于关系模式R(U)的任意两个可能的关系r1、r2,若r1[x]=r2[x],则r1[y]=r2[y])及其变体。知识图谱由于无模式性、开放世界假设、噪声多、规模大等挑战,直接使用传统方法可能会存在一些问题。

因此,近年来有越来越多的工作研究专用于知识图谱的质量控制方法。主要任务可以分为评估、问题发现和质量提升三种,方法可以分为基于人工、统计学习、规则方法和混合方法四种,下面分别展开介绍。

二、基于人工的方法

人工判别和检测是进行质量控制的一种直观方法。但由于知识图谱的规模,一般难以使用人力处理所有条目,故现有的研究点主要集中于两个:抽样和众包。如VLDB19的工作[1]提出了一个迭代抽样的质量评估指标,并将整个过程置于统计学框架下使其具有理论保证;ISCWC13的工作[2]结合专家和普通工人的众包技术进行知识图谱检错;ICDE18[3]考虑在预算约束下结合外部知识和众包进行补全和纠错等。

总的来说,人可以很容易地参与到质量控制的各个环节并具有较大的可信性保证,但在大规模数据量下需要考虑一些更高效的方案,如通过优化众包任务设计和任务分配技术来更好地利用人力等。

三、基于统计/学习的方法

统计方法存在一个从早期的基于统计分布进行离群点检测和缺失类型预测,到基于手工提取特征训练机器学习分类器,再到使用各种表示学习技术进行链接预测和知识图谱补全的发展历程。由于输入数据的错误和稀疏性问题,也有较多工作考虑结合文本、查询日志等外部资源。

近年来的嵌入表示学习方法,如平移距离模型、张量分解模型、神经网络模型等,通过将知识图谱中的实体和关系映射到低维稠密向量并保持其结构和属性特征,可用于链接预测、实体分类、三元组分类等任务以解决知识图谱的完整性问题,是进行知识图谱质量控制的一种重要手段。但其存在任务形式受限、对输入数据敏感、可解释性差等问题。在补全之外的评估、检错和纠错任务,在完整性之外的多种维度等,都还需要更进一步的研究。

四、基于规则的方法

对知识图谱质量控制来说,规则方法是一大类,有多种不同的规则形式,以及不同的规则挖掘、评估和应用算法研究。

本文将用于知识图谱质量控制的规则划分为四种主要类型:谓词逻辑规则、本体规则、图模式规则和其他规则,并分别介绍了其中的代表性工作和主要方法。

基于规则的方法可以将质量控制全流程纳入统一的框架下,利用一套统一的规则进行质量评估、检错和纠错。但是规则形式的选择需要在表达能力和复杂性之间寻求平衡。另外,虽然规则方法有能力处理质量控制的各个环节,但现有工作大多只关注了一小部分,目前还没有一个完整的一体化解决方案。

五、混合方法

人工、规则和统计学习方法各有优缺,因此将不同技术结合起来的混合方法表现出很大的潜力。如ICDE18[4]提出一个人机结合的框架做实体链接,并设计具有质量保证的任务分配方法;WWW20[5]结合神经网络和规则方法对知识库进行纠错;ICDE20的[6]将人、统计机器学习和规则方法置于一个统一的框架下进行过期事实的检测,实现了一个人在环路的数据标注、模型训练和规则生成的迭代范式,展现了混合策略的优势。

六、讨论和未来方向

文章最后用较大篇幅对现有工作的研究重心和局限性展开了讨论,并提出了若干未来方向。如一体化解决方案、准确性和完整性之外的更多维度、属性和字面值问题、结合策略、外部资源、动态知识图谱等方面都还存在较大的研究空白。

总的来说,知识图谱质量控制是一个覆盖面很广的研究问题,针对不同的任务、对象、维度和方法,都有很多值得深入研究和探索的点。

参考文献

[1] JunyangGao, Xian Li, Yifan Ethan Xu, Bunyamin Sisman, Xin LunaDong, Jun Yang: Efficient Knowledge Graph Accuracy Evaluation. Proc.VLDB Endow. 12(11): 1679-1691 (2019)

[2] Acosta M,Zaveri A, Simperl E, et al. Crowdsourcing linked data qualityassessment[C]//International semantic web conference. Springer, Berlin,Heidelberg, 2013: 260-276.

[3] Jiang L, ChenL, Chen Z. Knowledge base enhancement via data facts and crowdsourcing[C] //2018IEEE 34th International Conference on Data Engineering (ICDE). IEEE, 2018:1109-1119.

[4] Chen Z, ChenQ, Fan F, et al. Enabling quality control for entity resolution: A human andmachine cooperation framework[C]//2018 IEEE 34th International Conference onData Engineering (ICDE). IEEE, 2018: 1156-1167.

[5] Chen J, ChenX, Horrocks I, et al. Correcting knowledge base assertions[C]//Proceedings ofThe Web Conference 2020. 2020: 1537-1547.

[6] Hao S, Chai C,Li G, et al. Outdated Fact Detection in Knowledge Bases[C]//2020 IEEE 36thInternational Conference on Data Engineering (ICDE). IEEE, 2020: 1890-1893.

本文标签: 图谱质量控制知识