admin管理员组

文章数量:1531320

文章目录

    • 1 简介
      • 1.1 动机
      • 1.2 创新
    • 2 方法
      • 2.1 Structured Extraction Language
      • 2.2 Structural Schema Instructor
      • 2.3 Structure Generation with UIE
    • 3 Pre-training and Fine-tuning for UIE
      • 3.1 Pre-training
      • 3.2 On-Demand Fine-tuning
    • 4 实验

1 简介

论文题目:Unified Structure Generation for Universal Information Extraction
论文来源:ACL 2022
组织机构:软件所 百度
论文链接:https://arxiv/pdf/2203.12277.pdf
代码链接:https://github/universal-ie/UIE

1.1 动机

  • 针对具体任务的信息抽取方法阻碍了信息抽取系统的结构发展、知识共享和跨领域迁移。

1.2 创新

  • 提出了一个统一的text-to-structure生成架构,可以对不同的信息抽取(IE)任务进行建模,自适应地生成目标结构,并从不同的知识资源学习通用的信息抽取能力。是第一个text-to-structure预训练抽取模型。
  • 设计了一个统一的结构生成网络,通过结构抽取语言(structural extraction language)将异构的信息抽取结构编码成统一的表示,并通过结构模式(structural schema instructor)指导机制控制UIE模型的识别、关联和生成。

2 方法

模型的整体框架如下图,主要包括structural schema instructor和structural extraction language两部分,给定一个具体的预定义的schema s和文本t,模型需要生成一个结构,该结构包含schema s指示的文本t中所需的结构信息。

2.1 Structured Extraction Language

structured exextraction language (SEL)将异构IE结构编码为统一的表示,包括三种语义结构,示例如下图:

  1. SPOTNAME:表示文本中存在该Spot Name类型的信息片段;
  2. ASSONAME:表示文本中存在与结构中上层 Spot有Asso Name关系的信息片段;
  3. INFOSPAN:表示Spot Name或者Asso Name在文本中的span;

2.2 Structural Schema Instructor

Structural Schema Instructor(SSI)描述任务的抽取目标,构建一个schema-based prompt。包含三种类型的token:

  1. SPOTNAME:目标的spot name。
  2. ASSONAME:目标的association name。
  3. Special Symbols([spot], [asso],[text]):分别添加在每个spot name、association name和文本前面。

2.3 Structure Generation with UIE

text-to-SEL生成的过程使用编码-解码结构,结构为Transformer,编码和解码的公式如下:

本文标签: 笔记论文ACLUnifiedExtraction