admin管理员组文章数量:1558103
背景
在特定领域,如金融、医疗和司法领域,由于数据标签过程的高成本,没有足够的标签数据.而且,目前大多数方法都侧重于从一个句子中提取事件,但是一个事件通常在一个文档中由多个句子表示.
数据集
财务事件知识库是结构化数据,包括九种常见的财务事件类型,并以表格形式存储.
非结构化文本数据来自公司发布的官方公告,本文从搜狐证券网获取这些文本数据.
对于每种类型的金融事件,我们构建了一个事件触发器字典,例如在 Equity Freeze 事件中冻结和在 Equity Pledge 事件中质押。因此可以通过从公告中查询预定义的字典来自动标记触发词。通过这些预处理,结构化数据可以映射到公告中的事件参数。因此,我们可以自动识别事件提及,并标记事件触发器和其中包含的事件参数,以生成句子级数据,如图 3 底部所示。然后,事件提及被自动标记为正例将公告中的其余句子标记为反例,构成文档级数据,如图3右侧所示。文档级数据和句子级数据共同构成了本文所需的训练数据。 EE系统。
模型
SEE的具体模型实现,
由一个Bi-LSTM神经网络和一个CRF层组成。 句子中的每个汉字都由一个向量表示,作为 Bi-LSTM 层的输入(Mikolov et al., 2013)。 BiLSTM 层的输出被投影为每个字符的得分。 并且使用 CRF 层来克服标签偏差问题。 SEE 最终返回文档中每个句子的句子级 EE 的结果。
文档级事件提取 (DEE)
DEE 由两部分组成:一个旨在发现文档中提及的事件的关键事件检测模型和一个旨在填充缺失事件参数的参数完成策略。关键事件检测:如图4右侧所示,事件检测的输入由两部分组成:一是事件参数和事件触发的表示来自SEE(蓝色)的输出,二是是当前句子的向量表示(红色)。这两部分连接起来作为卷积神经网络(CNN)层的输入特征。然后将当前句子分为两类:关键事件与否。 Arguments-completion strategy:我们通过DEE获得了包含大部分事件参数的关键事件,以及SEE对文档中每个句子的事件提取结果。为了获得完整的事件信息,我们使用参数完成策略,它可以自动填充周围句子中缺失的事件参数。如图 4 所示,一个集成的 Pledge 事件包含事件提及 Sn 中的事件参数和从
结论
ORG:抵押机构 NUM:质押股票数量 NAME:股东名称
BEG:抵押开始日期 END:抵押结束日期
小结
优缺点:适用于文档级单事件,对于多事件效果不明显
本文标签: 笔记论文FinancialEventChinese
版权声明:本文标题:A Document-level Chinese Financial Event Extraction System based on Automatically Labeled (2018)论文笔记 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://m.elefans.com/dianzi/1727384445a1112263.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论