admin管理员组

文章数量:1558048

Motivation:

  1. 因为都是基于监督学习方法,所以特定领域没有足够的标签数据;
  2. 大部分事件抽取方法都是局限于句子级别的,而事件通常都是在一个文档中用多个句子表达的。

Contributions

提出一个文档级别的中文金融事件抽取系统ECFEE),该系统可以:

  1. 自动生成大规模标签数据;
  2. 从全篇文档中抽取事件。

DCFEE,尝试通过使用远程监督(DS)来生成EE数据并进行两阶段提取:

  1. 用于SEE的序列标注模型
  2. 用于检测关键事件句子的关键事件句子检测模型,以及启发式策略,用于填充DEE的周围句子中缺少的论元。

文章目录

    • 1. 介绍
      • 1.1 基本概念
      • 1.2 中文金融领域EE的挑战
      • 1.3 文章贡献
    • 2.方法
      • 2.1 数据生成
        • 2.1.1 数据来源
      • 2.1.2 数据生成方法
    • 2.3 事件抽取(EE)
      • 2.2.1 句子级事件抽取(SEE)
      • 2.2.2 文档级事件抽取(DEE)
        • 关键事件检测
        • 论元补全策略
    • 3 评估
      • 3.1 数据集
    • 4 ECFEE的应用
    • 6 结论
    • 问题:

1. 介绍

1.1 基本概念

事件抽取(Event Extraction, EE):发现文中事件提及(event mentions),并抽取出事件。

名词解释:
事件提及:有提到事件的句子。这种句子一般包括明显的事件触发词(event triggers)和事件论元(event arguments)。
事件触发词:能够最清楚地表示一个事件发生的词。
事件论元:在事件中扮演特定角色的实体

事件抽取的作用
有利于构建NLP应用,如:

  • 信息抽取(IE)
  • 问答(QA)
  • 摘要

1.2 中文金融领域EE的挑战

  • 缺乏数据:大部分EE方法都是依赖于监督学习,依赖于人工标注的数据,而中文金融领域则没有标注数据。
  • 文档级EE:大部分事件抽取方法都是局限于句子级别的,而事件通常都是在一个文档中用多个句子表达的。

1.3 文章贡献

  1. 提出DCFEE框架:可以自动生成大规模标签数据并且从财经报告中抽取文档级事件
  2. 为事件抽取引入了自动标记数据的方法,并且给出了一系列构建中文金融事件数据集的实用性建议。
  3. DCFEE已经成功搭建为在线应用,可以用来从金融报告中快速抽取事件。

2.方法

DCFEE框架预览

如图2中,就是DCFEE框架,该框架主要包括2部分:

  1. 数据生成模块:使用远程监督(DS)对全篇文档(文档级数据)中的事件提及,以及对事件提及(句子级数据)的触发词和论元进行标注。
  2. 事件抽取系统:包含基于句子级标签数据的句子级事件抽取(SEE);以及基于文档级标签数据的文档级事件抽取(DEE)。

2.1 数据生成

标签数据生成框架如下图:

2.1.1 数据来源

主要有两种数据来源:

  1. 金融事件知识库(结构化数据):包括9种一般金融事件类型和关键的事件论元。如图3中表格第一栏,NAME、ORG等。
  2. 企业发出的金融公告(非结构化文本数据

2.1.2 数据生成方法

假设包含事件触发词和大部分事件论元的句子有可能是事件提及。

  1. 标记触发词:对于每种金融事件,构建一个事件触发词词典。因此触发词可以通过查询预定义的词典来进行标记。
  2. 通过这些预处理,结构化数据可以映射到公告中的事件论元。因此,我们可以自动识别事件提及并标记事件触发词和其中包含的事件论元,以生成句子级别的数据,如图3底部所示。
  3. 事件提及自动标记为正例,剩余部分被标记为负例,以组成文档级数据。如图3中右边。
  4. 句子级数据和文档级数据共同组成EE系统要求的训练数据。

小结:识别事件触发词 → 识别事件提及论元(句子级) → 标记事件提及,组合为文档级数据。

Tips
数据标记中存在的挑战:金融公告和事件知识库的对应;事件论元的歧义和缩写。
建议
i.减小搜索空间:通过检索关键事件参数(例如公告的发布日期和股票代码),可以减少候选公告的搜索空间。
ii.正则表达式:通过正则表达式可以匹配到更多的事件论元,提高标注数据的召回率。例如LONCIN CO LTD (Role=Shareholder Name)在金融事件数据库中,但是LONCIN在公告中。我们可以通过正则表达式来解决这个问题,并将LONCIN标记为事件论元。
iii.规则:一些任务驱动的规则可用于自动标注数据。例如,我们可以通过计算 2017-02-23 (Role=Pledging Start Date) 和2018-02-23(Role=Pledging End Date)之间的间隔标记出12 months (Role=Pledging End Date)

2.3 事件抽取(EE)

本论文的事件抽取系统的整体架构如图4:

主要包含两部分:句子级事件抽取(SEE,从句子中提取出发词和论元)和文档级时间抽取(DEE,旨在基于关键事件检测模型和论元补全策略从整个文档中提取事件参数。)

2.2.1 句子级事件抽取(SEE)

把SEE 作为序列标注任务,使用句子级标记数据作为训练数据。对于每一个角色(事件触发词,事件论元和其他)使用BIO标注。这里使用Bi-LSTM-CRF模型进行标注。
得益于双向长短记忆 (Bi-LSTM) 组件,它可以有效地使用过去和未来的输入功能,并且还可以通过条件随机场 (CRF) 层使用句子级标记信息。

实现方式在图4左侧。句子中的每个字都被表示为向量输入到Bi-LSTM层,Bi-LSTM层的输出为每个字符的得分。CRF层用来克服标签偏置问题。SEE最终为文档中的每个句子返回句子级事件抽取的结果。

2.2.2 文档级事件抽取(DEE)

文档级事件抽取由两部分组成:关键事件检测模型(发现文档中的事件提及)和论元补全策略(补全缺失的事件论元)

关键事件检测

如图4中右上角部分。即下图:

事件检测的输入由两部分组成:

  • SEE输出的事件论元和事件触发词的表示(蓝色部分)
  • 当前句子的向量表示(红色部分)

这两部分连接起来作为卷积神经网络(CNN)层。然后当前句子就被分为两类(是关键事件或者不是)。

小结:使用CNN进行文本分类。

论元补全策略

通过DEE获得了关键事件(该事件包含大部分论元),通过SEE获得每个句子的事件抽取结果。
问题:事件信息不完全。
方法:论元补全策略,从上下文自动补全缺失的事件论元。
如下图,Pledge事件包含在事件提及 S n S_n Sn,从 S ( n + 1 ) S_(n+1) S(n+1)句子中获得12月这一论元。

3 评估

3.1 数据集

有4种金融事件:
Equity Freeze(EF) event:股票冻结事件
Equity Pledge(EP) event:股权质押事件
Equity Repurchase (ER) event:股权回购事件
Equity Overweight (EO) event:股权增持事件
通过自动生成数据,共标记了 2976 个公告。我们将标记数据分为三个子集:训练集(占公告总数的 80%)、开发集(10%)和测试集 (10%)。

表 1 展示了数据集的统计数据。
NO.ANN :每个事件类型可以自动标记的公告数量。
NO.POS: 正案例句子的总数(提及事件)。
NO.NEG:负例句子的数量。
正负例句子构成文档级数据,作为DEE的训练数据。

4 ECFEE的应用

中文财务文本的在线EE服务。它可以帮助财务专业人员从财务公告中快速获取事件信息。图5显示了在线DCFEE系统的屏幕截图。不同的颜色词代表不同的事件参数的类型,带下划线的句子代表文档中提到的事件。

6 结论

论文介绍了DCFEE,该框架能够基于自动标记的数据从中国财务公告中提取文档级事件。实验结果表明了该系统的有效性。我们成功地将系统联机,用户可以通过它快速从财务公告中获取事件信息9。

问题:

  1. 没能解决multi-event问题,即一文档多事件的问题。
  2. 与上下文无关的论元补全策略无法有效解决论元分散的挑战。

本文标签: 中文事件金融DocumentDCFEE