admin管理员组

文章数量:1546780

GAKG: A Multimodal Geoscience Academic Knowledge Graph 多通道地理学学术知识图谱

2021.09

现有的主要关注概念的外部联系,然而内部的多模态数据的潜在的丰富信息大多被忽略了。

本文基于各类地学期刊发表的112万论文,提取插图、表格、文本,获取知识实体、文章时代空间属性,耦合多模态数据和特征。创新之处在于将机器阅读、信息检索和人在回路的人工标注技术结合。

本文贡献:

1、本文挖掘论文内部插图、表格、文本、文献计量学数据等,耦合多通道学术数据和特征。

2、通过世界地图将所有信息融合在一起,论文之间行成强相关性和高耦合性。

3、提出一种人在回路的实体提取管道,提取知识实体,并映射到众包知识分类,人机交互减少工作量。

4、6800多万个三元组,定期更新。


一、GAKG本体论

包含11个概念19个关系连接39个数据属性。

**论文:**属性包括标题(标签)、摘要、DOI、原始URL、论文发表的年份和日期、问题、卷、期刊的起始页和结尾页。其中,属性标题重用了AXIOM rdfs:Label,属性原始URL重用了Axiom foaf:Page。

**期刊:**3个属性

**作者:**2个属性

**从属:**作者的领域从属关系,5个属性

**主题:**3个属性,包含图像url

**图解:**3个属性

**表格:**3个属性

**知识:**解释关键信息的item,3个属性

**地理位置:**3个属性

**时间尺度:**3个属性

GeoHash

GAKG数据集以RDF (N-Triple)格式保存。

二、构建

1、知识主体的抽取

提出人在回路的知识抽取方法。

首先确定要提取的核心知识,定为5个问题,关系都是paper的属性。

从摘要中回答问题:在GAKG引文网络部署网络嵌入来计算论文实体的嵌入,使用BERT对论文实体的嵌入与标注文章摘要的嵌入向量融合。用ERNIE框架训练机器阅读理解模型,训练集是2000篇由专家注释的摘要中的问题答案。最后为其余文章生成答案,这样获得问题答案对。

ERNIE:百度的持续学习的语义理解预训练框架,基于BERT做的。

连接知识实体与答案,提取了230万多的概念,每个词表示为文本语料库的TF-IDF矩阵中的一个列向量,为答案中实体排名,选出最好的三个。

TF-IDF:如果某个单词在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF是词频表示词条在文本中出现的频率,IDF表示总文档数/出现该词的文档,TF*IDF越大越好。可用于提取关键词

2、地理学知识分类学

构建知识分类,并把Human-in-Loop系统提取的知识实体映射到该分类。

geologic time scale information mining
geographic information extraction
3、地理信息的提取

地理插图:提取图片并筛选,从插图中提取地名、坐标。

地理社会政治实体:基于BERT提取,位置归一化。

4、地理时间尺度提取

本文标签: 地理学图谱通道学术知识