【中文金融事件抽取】DCFEE: A Document-level Chinese Financial Event Extraction System ...|电子爱好者

admin管理员组
文章数量:1558048

Motivation：

因为都是基于监督学习方法，所以特定领域没有足够的标签数据；
大部分事件抽取方法都是局限于句子级别的，而事件通常都是在一个文档中用多个句子表达的。

Contributions

提出一个文档级别的中文金融事件抽取系统（ECFEE），该系统可以：

自动生成大规模标签数据；
从全篇文档中抽取事件。

DCFEE，尝试通过使用远程监督（DS）来生成EE数据并进行两阶段提取：

用于SEE的序列标注模型
用于检测关键事件句子的关键事件句子检测模型，以及启发式策略，用于填充DEE的周围句子中缺少的论元。

文章目录

- 1. 介绍
- - 1.1 基本概念
  - 1.2 中文金融领域EE的挑战
  - 1.3 文章贡献
- 2.方法
- - 2.1 数据生成
  - - 2.1.1 数据来源
  - 2.1.2 数据生成方法
- 2.3 事件抽取（EE）
- - 2.2.1 句子级事件抽取（SEE）
  - 2.2.2 文档级事件抽取（DEE）
  - - 关键事件检测
    - 论元补全策略
- 3 评估
- - 3.1 数据集
- 4 ECFEE的应用
- 6 结论
- 问题：

1. 介绍

1.1 基本概念

事件抽取（Event Extraction, EE）：发现文中事件提及(event mentions)，并抽取出事件。

名词解释：
事件提及：有提到事件的句子。这种句子一般包括明显的事件触发词(event triggers)和事件论元(event arguments)。
事件触发词：能够最清楚地表示一个事件发生的词。
事件论元：在事件中扮演特定角色的实体。

事件抽取的作用：
有利于构建NLP应用，如：

信息抽取（IE）
问答（QA）
摘要

1.2 中文金融领域EE的挑战

缺乏数据：大部分EE方法都是依赖于监督学习，依赖于人工标注的数据，而中文金融领域则没有标注数据。
文档级EE：大部分事件抽取方法都是局限于句子级别的，而事件通常都是在一个文档中用多个句子表达的。

1.3 文章贡献

提出DCFEE框架：可以自动生成大规模标签数据并且从财经报告中抽取文档级事件
为事件抽取引入了自动标记数据的方法，并且给出了一系列构建中文金融事件数据集的实用性建议。
DCFEE已经成功搭建为在线应用，可以用来从金融报告中快速抽取事件。

2.方法

DCFEE框架预览：

如图2中，就是DCFEE框架，该框架主要包括2部分：

数据生成模块：使用远程监督(DS)对全篇文档（文档级数据）中的事件提及，以及对事件提及（句子级数据）的触发词和论元进行标注。
事件抽取系统：包含基于句子级标签数据的句子级事件抽取（SEE）；以及基于文档级标签数据的文档级事件抽取（DEE）。

2.1 数据生成

标签数据生成框架如下图：

2.1.1 数据来源

主要有两种数据来源：

金融事件知识库（结构化数据）：包括9种一般金融事件类型和关键的事件论元。如图3中表格第一栏，NAME、ORG等。
企业发出的金融公告（非结构化文本数据）

2.1.2 数据生成方法

假设包含事件触发词和大部分事件论元的句子有可能是事件提及。

标记触发词：对于每种金融事件，构建一个事件触发词词典。因此触发词可以通过查询预定义的词典来进行标记。
通过这些预处理，结构化数据可以映射到公告中的事件论元。因此，我们可以自动识别事件提及并标记事件触发词和其中包含的事件论元，以生成句子级别的数据，如图3底部所示。
事件提及自动标记为正例，剩余部分被标记为负例，以组成文档级数据。如图3中右边。
句子级数据和文档级数据共同组成EE系统要求的训练数据。

小结：识别事件触发词 → 识别事件提及和论元（句子级） → 标记事件提及，组合为文档级数据。

Tips
数据标记中存在的挑战：金融公告和事件知识库的对应；事件论元的歧义和缩写。
建议：
i.减小搜索空间：通过检索关键事件参数（例如公告的发布日期和股票代码），可以减少候选公告的搜索空间。
ii.正则表达式：通过正则表达式可以匹配到更多的事件论元，提高标注数据的召回率。例如LONCIN CO LTD (Role=Shareholder Name)在金融事件数据库中，但是LONCIN在公告中。我们可以通过正则表达式来解决这个问题，并将LONCIN标记为事件论元。
iii.规则：一些任务驱动的规则可用于自动标注数据。例如，我们可以通过计算 2017-02-23 (Role=Pledging Start Date) 和2018-02-23(Role=Pledging End Date)之间的间隔标记出12 months (Role=Pledging End Date)

2.3 事件抽取（EE）

本论文的事件抽取系统的整体架构如图4：

主要包含两部分：句子级事件抽取（SEE，从句子中提取出发词和论元）和文档级时间抽取（DEE，旨在基于关键事件检测模型和论元补全策略从整个文档中提取事件参数。）

2.2.1 句子级事件抽取（SEE）

把SEE 作为序列标注任务，使用句子级标记数据作为训练数据。对于每一个角色（事件触发词，事件论元和其他）使用BIO标注。这里使用Bi-LSTM-CRF模型进行标注。
得益于双向长短记忆（Bi-LSTM）组件，它可以有效地使用过去和未来的输入功能，并且还可以通过条件随机场（CRF）层使用句子级标记信息。

实现方式在图4左侧。句子中的每个字都被表示为向量输入到Bi-LSTM层，Bi-LSTM层的输出为每个字符的得分。CRF层用来克服标签偏置问题。SEE最终为文档中的每个句子返回句子级事件抽取的结果。

2.2.2 文档级事件抽取（DEE）

文档级事件抽取由两部分组成：关键事件检测模型（发现文档中的事件提及）和论元补全策略（补全缺失的事件论元）

关键事件检测

如图4中右上角部分。即下图：

事件检测的输入由两部分组成：

SEE输出的事件论元和事件触发词的表示（蓝色部分）
当前句子的向量表示（红色部分）

这两部分连接起来作为卷积神经网络（CNN）层。然后当前句子就被分为两类（是关键事件或者不是）。

小结：使用CNN进行文本分类。

论元补全策略

通过DEE获得了关键事件（该事件包含大部分论元），通过SEE获得每个句子的事件抽取结果。
问题：事件信息不完全。
方法：论元补全策略，从上下文自动补全缺失的事件论元。
如下图，Pledge事件包含在事件提及 S n S_n Sn，从 S ( n + 1 ) S_(n+1) S(n+1)句子中获得12月这一论元。

3 评估

3.1 数据集

有4种金融事件：
Equity Freeze(EF) event：股票冻结事件
Equity Pledge(EP) event：股权质押事件
Equity Repurchase (ER) event：股权回购事件
Equity Overweight (EO) event：股权增持事件
通过自动生成数据，共标记了 2976 个公告。我们将标记数据分为三个子集：训练集（占公告总数的 80%）、开发集（10%）和测试集（10%）。

表 1 展示了数据集的统计数据。
NO.ANN :每个事件类型可以自动标记的公告数量。
NO.POS: 正案例句子的总数（提及事件）。
NO.NEG:负例句子的数量。
正负例句子构成文档级数据，作为DEE的训练数据。

4 ECFEE的应用

中文财务文本的在线EE服务。它可以帮助财务专业人员从财务公告中快速获取事件信息。图5显示了在线DCFEE系统的屏幕截图。不同的颜色词代表不同的事件参数的类型，带下划线的句子代表文档中提到的事件。

6 结论

论文介绍了DCFEE，该框架能够基于自动标记的数据从中国财务公告中提取文档级事件。实验结果表明了该系统的有效性。我们成功地将系统联机，用户可以通过它快速从财务公告中获取事件信息9。

问题：

没能解决multi-event问题，即一文档多事件的问题。
与上下文无关的论元补全策略无法有效解决论元分散的挑战。

本文标签：中文事件金融 Document DCFEE

版权声明：本文标题：【中文金融事件抽取】DCFEE: A Document-level Chinese Financial Event Extraction System ... 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1727384100a1112219.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

【中文金融事件抽取】DCFEE: A Document-level Chinese Financial Event Extraction System ...

文章目录

1. 介绍

1.1 基本概念

1.2 中文金融领域EE的挑战

1.3 文章贡献

2.方法

2.1 数据生成

2.1.1 数据来源

2.1.2 数据生成方法

2.3 事件抽取（EE）

2.2.1 句子级事件抽取（SEE）

2.2.2 文档级事件抽取（DEE）

关键事件检测

论元补全策略

3 评估

3.1 数据集

4 ECFEE的应用

6 结论

问题：

更多相关文章

树莓派4B安装系统，配置远程连接和WiFi，更新源，更新中文支持，基本Linux命令，用Python输出hello和“你好，世界”

使用photoshop 的UXP中文文档

EasyRecovery17中文mac苹果电脑版数据恢复软件 永久免费破解版下载

Tuxera NTFS for Mac 2023破解版百度云下载 Tuxera NTFS中文汉化补丁安装激活破解教程 Tuxera NTFS for Mac激活码

软件工程 实践者的研究方法 中文题答案

TortoiseSVN (Subversion客户端) 使用手册(中文) （四）

onlyoffice开发java_OnlyOffice二次开发探索(J2EE)-Go语言中文社区

Windows11系统C盘用户文件夹下用户文件夹为中文，解决方案

FreeCAD是什么、如何下载（windows+0.18.4版本）和安装以及中文设置

腾讯云携手招联金融成立联合实验室，首枪瞄准仿冒App识别

android push 到 systempriv-app下 安装系统应用关闭分区检测功能 使system分区为可读可写模式 不要有中文与空格

win32 键盘 鼠标事件

CCleaner v6.24.11060中文专业版 – 免费的系统优化和隐私保护工具

CorelDRAW 2024中文版含2024终身永久版 CorelDRAW2024中文破解版 Crack下载安装方法 CorelDRAW2024序列号激活 CDR2023

分享亲测能用安装包(PS2024)最新中文注册机永久使用版百度网盘下载

大厂设计师亲授：PS 中文设置技巧

onload, onpageshow 事件在不同浏览器中的表现

[中文事件抽取]DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Lab

探索金融数据新维度：Financial Datasets

第二章第二十二题（金融应用：货币单位）(Financial application: monetary units)

发表评论

推荐文章

go 清空文件内容_回收站清空了怎么恢复？恢复回收站以前的文件

How to find which process is holding certain port #

服务器清理

谷歌浏览器手势操作_[经验分享] 2步操作永久提升谷歌Chrome浏览器默认下载速度...

VMware Horizon 8 2111 下载 -- 用于管理虚拟桌面 (VDI)、应用和在线服务的领先平台

热门文章

电脑小技巧45个

android安装应用程序的命令,使用adb命令给安卓手机安装软件

delphi开发安卓中更改图标与APP名称

计算机文件夹莫名其妙丢失,电脑上的文件突然消失了怎么办？及时止损很关键...

服务器运行堵塞 负载%100,小白站长如何快速了解网站服务器的运行状况

开发工具idea和webstorm2019永久使用方法

必备！iShot 1.7.6 中文版 (支持长截图的截图工具)

计算机系统时间无法更改,电脑时间不能修改|系统时间改不了 四个处理办法

html实战例子: 简易的qq登录界面

关于微信无法登陆网页版的问题

最新文章

按键精灵脚本-windows桌面自动化操作

你真的认为云桌面的这些坑是真的坑吗

华为云计算IE面试笔记-桌面云中的用户组、虚拟机模板、模板虚拟机、虚拟机组和桌面组的关系及区别。发放完整复制和链接克隆虚拟机时，步骤有什么区别，要怎么选择桌面组？

Neo4j在Windows下的安装，提供下载链接（官网忒慢）

Windows系统服务器远程桌面连接教程及问题解决

#转载 腾讯云windows远程登录黑屏，但是显示cmd

推荐一款Mac远程桌面工具——Parallels Client（免费）

OpenStack云桌面系列【1】—开始

华为云桌面FUSION ACCESS输入用户名和密码后连不上桌面的解决办法

解决windos 2012 更新后不显示桌面

WIN10连接远程桌面（以阿里云服务器为例）

华为桌面云虚拟机白屏无法启动的修复方法

Maven下载安装、环境配置(超详细)（包括配置Java环境，Windows、IDEA中配置Maven）

Mac使用RDC连接阿里云Windows服务器时出现“远程桌面连接无法验证您希望连接的计算机的身份”

在Windows云服务器上部署javaweb项目

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

EasyRecovery17中文mac苹果电脑版数据恢复软件永久免费破解版下载

软件工程实践者的研究方法中文题答案

android push 到 systempriv-app下安装系统应用关闭分区检测功能使system分区为可读可写模式不要有中文与空格

win32 键盘鼠标事件

服务器运行堵塞负载%100,小白站长如何快速了解网站服务器的运行状况

计算机系统时间无法更改,电脑时间不能修改|系统时间改不了四个处理办法

#转载腾讯云windows远程登录黑屏，但是显示cmd

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载