TKDE2022 | 知识图谱质量控制综述|电子爱好者

admin管理员组
文章数量:1530013

编者按：

北京大学数据管理实验室薛冰聪硕士关于知识图谱质量控制的综述《Knowledge Graph Quality Management: a Comprehensive Survey》被 TKDE 2022 接收。

知识图谱以结构化的形式表示现实世界中的实体和关系，是人工智能技术发展的基石。随着DBpedia、YAGO等大规模图谱的构建和发布，知识图谱在信息检索、智能问答、推荐系统等任务中发挥着越来越重要的作用。但是，现有知识图谱普遍存在着质量问题，如不完整、不准确、不一致等。而另一方面，数据质量的研究有很长的发展历史，也催生了一系列工具和算法。近年来，越来越多的工作考虑到知识图谱质量问题，并提出了若干专用于知识图谱的质量控制方法。

这篇文章对知识图谱质量控制问题展开了广泛的综述，内容不仅包括质量控制的基本概念如问题、维度和指标，也涵盖了质量控制从评估、问题发现到质量提升的全流程，对不同工作中提出的方法，按照多个维度进行分类。在文章最后对现有工作进行讨论和总结，并提出了若干有潜力的未来发展方向。

论文地址：

https://ieeexplore.ieee/document/9709663

（或点击文末“阅读原文”跳转）

一、背景知识

1. 数据质量基础

数据的数量和质量宛如一枚硬币的两面，对数据管理同样重要。大数据时代人们往往更关注数据的数量，对质量问题的重视程度不够。

数据质量好坏与具体任务相关，没有一个完全统一的定义，通常用“fit for use”或“free of defects”来解释。评估数据质量的不同方面形成了不同的维度，大致可以分为内部维度和外部维度两种，前者包括准确性、完整性、一致性、时效性、冗余性等问题，反映了数据本身的特性；后者如可获得性、表征性等，往往与下游任务相关。与质量维度相伴的数据质量指标，则给出了评估不同维度的具体计算方式。

数据从诞生到应用存在不同的生命周期，质量问题会存在于生命周期的各个阶段。质量管理任务也可以在各个阶段进行，主要包括质量评估、问题发现和质量提升三个过程。

2、从数据质量到知识图谱质量

数据质量有近30年的研究历史，而知识图谱质量研究则是近几年才开始的。知识图谱质量可以视为数据质量研究的子类，可以考虑迁移现有的质量控制方法，也可以研究专用于知识图谱的质量控制方法并扩展到一般的数据类型。

传统关系数据常用的一种质量控制方法是函数依赖（对于关系模式R(U)的任意两个可能的关系r1、r2，若r1[x]=r2[x],则r1[y]=r2[y]）及其变体。知识图谱由于无模式性、开放世界假设、噪声多、规模大等挑战，直接使用传统方法可能会存在一些问题。

因此，近年来有越来越多的工作研究专用于知识图谱的质量控制方法。主要任务可以分为评估、问题发现和质量提升三种，方法可以分为基于人工、统计学习、规则方法和混合方法四种，下面分别展开介绍。

二、基于人工的方法

人工判别和检测是进行质量控制的一种直观方法。但由于知识图谱的规模，一般难以使用人力处理所有条目，故现有的研究点主要集中于两个：抽样和众包。如VLDB19的工作[1]提出了一个迭代抽样的质量评估指标，并将整个过程置于统计学框架下使其具有理论保证；ISCWC13的工作[2]结合专家和普通工人的众包技术进行知识图谱检错；ICDE18[3]考虑在预算约束下结合外部知识和众包进行补全和纠错等。

总的来说，人可以很容易地参与到质量控制的各个环节并具有较大的可信性保证，但在大规模数据量下需要考虑一些更高效的方案，如通过优化众包任务设计和任务分配技术来更好地利用人力等。

三、基于统计/学习的方法

统计方法存在一个从早期的基于统计分布进行离群点检测和缺失类型预测，到基于手工提取特征训练机器学习分类器，再到使用各种表示学习技术进行链接预测和知识图谱补全的发展历程。由于输入数据的错误和稀疏性问题，也有较多工作考虑结合文本、查询日志等外部资源。

近年来的嵌入表示学习方法，如平移距离模型、张量分解模型、神经网络模型等，通过将知识图谱中的实体和关系映射到低维稠密向量并保持其结构和属性特征，可用于链接预测、实体分类、三元组分类等任务以解决知识图谱的完整性问题，是进行知识图谱质量控制的一种重要手段。但其存在任务形式受限、对输入数据敏感、可解释性差等问题。在补全之外的评估、检错和纠错任务，在完整性之外的多种维度等，都还需要更进一步的研究。

四、基于规则的方法

对知识图谱质量控制来说，规则方法是一大类，有多种不同的规则形式，以及不同的规则挖掘、评估和应用算法研究。

本文将用于知识图谱质量控制的规则划分为四种主要类型：谓词逻辑规则、本体规则、图模式规则和其他规则，并分别介绍了其中的代表性工作和主要方法。

基于规则的方法可以将质量控制全流程纳入统一的框架下，利用一套统一的规则进行质量评估、检错和纠错。但是规则形式的选择需要在表达能力和复杂性之间寻求平衡。另外，虽然规则方法有能力处理质量控制的各个环节，但现有工作大多只关注了一小部分，目前还没有一个完整的一体化解决方案。

五、混合方法

人工、规则和统计学习方法各有优缺，因此将不同技术结合起来的混合方法表现出很大的潜力。如ICDE18[4]提出一个人机结合的框架做实体链接，并设计具有质量保证的任务分配方法；WWW20[5]结合神经网络和规则方法对知识库进行纠错；ICDE20的[6]将人、统计机器学习和规则方法置于一个统一的框架下进行过期事实的检测，实现了一个人在环路的数据标注、模型训练和规则生成的迭代范式，展现了混合策略的优势。

六、讨论和未来方向

文章最后用较大篇幅对现有工作的研究重心和局限性展开了讨论，并提出了若干未来方向。如一体化解决方案、准确性和完整性之外的更多维度、属性和字面值问题、结合策略、外部资源、动态知识图谱等方面都还存在较大的研究空白。

总的来说，知识图谱质量控制是一个覆盖面很广的研究问题，针对不同的任务、对象、维度和方法，都有很多值得深入研究和探索的点。

参考文献

[1] JunyangGao, Xian Li, Yifan Ethan Xu, Bunyamin Sisman, Xin LunaDong, Jun Yang: Efficient Knowledge Graph Accuracy Evaluation. Proc.VLDB Endow. 12(11): 1679-1691 (2019)

[2] Acosta M,Zaveri A, Simperl E, et al. Crowdsourcing linked data qualityassessment[C]//International semantic web conference. Springer, Berlin,Heidelberg, 2013: 260-276.

[3] Jiang L, ChenL, Chen Z. Knowledge base enhancement via data facts and crowdsourcing[C] //2018IEEE 34th International Conference on Data Engineering (ICDE). IEEE, 2018:1109-1119.

[4] Chen Z, ChenQ, Fan F, et al. Enabling quality control for entity resolution: A human andmachine cooperation framework[C]//2018 IEEE 34th International Conference onData Engineering (ICDE). IEEE, 2018: 1156-1167.

[5] Chen J, ChenX, Horrocks I, et al. Correcting knowledge base assertions[C]//Proceedings ofThe Web Conference 2020. 2020: 1537-1547.

[6] Hao S, Chai C,Li G, et al. Outdated Fact Detection in Knowledge Bases[C]//2020 IEEE 36thInternational Conference on Data Engineering (ICDE). IEEE, 2020: 1890-1893.

本文标签：图谱质量控制知识

版权声明：本文标题：TKDE2022 | 知识图谱质量控制综述内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1725898195a1047905.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

TKDE2022 | 知识图谱质量控制综述

更多相关文章

再添近10个新冠知识图谱，OpenKG发布第二批开放数据集

Linux---------安装以及基本语法知识

Linux系统如何安装oki打印机,涨知识！OKI针式打印机的驱动安装方法

计算机 二进制 知识,计算机基础知识

CIO40知识星球—5年工程师升职IT主管（22-27岁）

[财务知识] debt debit credit 的区别于联系

3万字操作系统常用知识总结

系统级基础信号知识【Linux】【信号产生，捕捉，原理】

Linux必学知识（超全）

知识图谱记录

EXCEL 2016常用知识--Excel函数

渗透测试流程-全(仅供学习，知识分享)

关于QtC++数据库开发的一些冷知识

NLP--知识图谱存储与图数据库总结【分析】

知识图谱与数据库技术：RDF三元组库和Neo4j图数据库

基于Neo4j将知识图谱用于检索增强生成：Knowledge Graphs for RAG

BIOS知识枝桠——认识主板

知识星球下载的文件存放目录（手机）

计算机的基本键盘知识,知识：计算机键盘上每个键的功能_计算机的基本知识_IT 计算机_信息...

JAVA网络编程知识学习

发表评论

推荐文章

CornerStone 报错 “could not contact repository to read the latest log entries “

U盘efi分区,Win下不能识别盘符，将U盘格式化为FAT32格式的一种方法

chrome浏览器切换网页窗口快捷键

【AMD显卡在WIndow1011部署带GPU支持的深度学习环境(Pytorch-DirectML篇)】

暴风转码转超清文件_暴风影音16破解版下载-暴风影音16多开精简版(附怎么用) v9.4.1029.1111...

热门文章

oracle静默安装报错,Oracle 静默安装cadb错误 TNS-12547: TNS:lost contact

AR路由器-使用非管理口登录Web界面（web界面命令行）

k2p 登录路由器shell失败_斐讯p.to打不开_p.to进不去怎么办？-192路由网

2020-05-24【business competition】

密码学基础：Pedersen Commitment

2022-适用于 Windows 10 Version 1809 的 02 累积更新，适合基于 x64 的系统 (KB5010351) - 错误 0x800f0982

升级IPv6新路由器购买与老路由器巧妙利用

React Native是初创企业的正确选择

计算机硬盘拆分,扎心了！把电脑硬盘分成C、D、E、F盘其实很傻

【教程】在UEFI启动方式下，通过GRUB2引导，直接从硬盘ISO文件安装Windows10和Ubuntu双系统

最新文章

【杂谈】当当最新购书优惠来了，满300-60，AI好书推荐

2024最新版IntelliJ IDEA安装教程（非常详细）从零基础入门到精通，看完这一篇就够了

Windows下自制程序捕获6GHzWiFi7无线报文（mt7921au网卡WiFi6E）

揭秘英伟达A100、A800、H100、H800 GPU如何实现高性能大模型的百倍训练加速

还不会选渲染器？建筑设计师年度爱用排名来了！

IDEA2021.2安装与配置（持续更新）

dbeaver-ultimate23.3安装注册免费试用

会声会影2023旗舰版V26.0.0.136完整版2024免费下载最新中文旗舰版新功能讲解

视频编辑软件会声会影2025旗舰版即将来临

2022年，元宇宙是否能结束争议？

Ubuntu安装 IDEA

【IntelliJ IDEA 2024 激活及安装教程，亲测可以使用】

会声会影Corel VideoStudio2025旗舰版最新中文旗舰版新功能讲解及使用会声会影使用教程

福利分享：用GPU资源加速Flare FEP计算性能测试

rtx和gtx区别_gtx和rtx显卡哪个好

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

计算机二进制知识,计算机基础知识

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载