admin管理员组

文章数量:1530517

2021SC@SDUSC

1.核心功能

  • 支持对图片形式的文档进行版面分析,可以划分文字、标题、表格、图片以及列表5类区域(与Layout-Parser联合使用)
  • 支持文字、标题、图片以及列表区域提取为文字字段(与PP-OCR联合使用)
  • 支持表格区域进行结构化分析,最终结果输出Excel文件
  • 支持Python whl包和命令行两种方式,简单易用
  • 支持版面分析和表格结构化两类任务自定义训练

2.版面分析与表格识别核心技术

(1)传统方法:版面分析比较著名的是O’Gorman在1993年TPAMI中发表的算法Docstrum。通过自下而上的方法依次将图像中的黑白连通域划分为文字、文本行与文本块,从而得到版面布局。表格识别的传统方法通过腐蚀、膨胀等操作获得表格线、划分行列区域,然后将单元格与文本内容相结合重构为表格对象。但是传统算法主要问题在于,对于版面布局分析和表格结构的提取,图像处理的方法依赖各种阈值和参数的选择,对于不同场景下的文档图片难以保证泛化性。
(2)深度学习方法:除了直接使用检测模型来对版面内容进行分类以外,还融合了检测、分割、图神经网络、注意力机制等众多前沿技术能力。依赖算法工程师对于深度神经网络的精心设计,可以不再依赖阈值与参数,具有更好的泛化性。

3.PP-Structure核心技术解读

  • 版面分析技术
    PP-Structure的版面分析技术,主要是对图片形式的文档进行版面分析,将文档划分为文字、标题、表格、图片以及列表5类区域(与Layout-Parser联合使用)。其核心技术思路与Layout-Parser项目密切合作,参考了Layout-Parser的工程结构设计,配合PaddleDetection开源的高效检测算法PP-YOLO v2,在数据集TableBank和PubLayNet上mAP分别达到93.6和96.2, NVIDIA Tesla P40 耗时仅需66.6ms,且可以支持用户根据自己的数据自定义训练。

  • 表格识别技术
    表格识别技术则主要使用基于注意力机制的图片描述模型RARE,整体流程如下图所示,对于其中的表格区域进行表格识别处理。

表格识别的难点主要在于表格结构的提取,以及将表格信息与OCR信息融合。整体流程可以分为上下两部分,其中上半部分(黑色支路)是普通的OCR过程,通过(1)文本检测模块对表格图片进行单行文字检测,获得坐标,然后通过(2)文本识别模块识别模型得到文字结果。而在下半部分的在蓝色支路中,表格图片首先经过(3)表格结构预测模块,获得每个Excel单元格的四点坐标与表格结构信息。结合黑色支路文本检测获得的单行文字文本框4点坐标,共同输入(4)Cell坐标聚合模块,再通过(5)Cell文本聚合模块,将属于同一单元格的文本拼接在一起。最后结合表格结构信息,通过(6)Excel导出模块获得Excel形式的表格数据。

下面分别针每个模块分别展开介绍。
(1)文本检测模块 和(2)文本识别模块:主要使用PP-OCR提供的检测和识别算法。
(3)表格结构预测模块,主要使用基于Attention的图片描述模型RARE,RARE模型可以实现:输入一张图片,通过带有注意力机制的网络输出一段文字,描述图片的内容,如下图所示。

而针对于表格图片的图片描述网络,输入一张经过版面分析的表格图片,输出的是一串HTML字符(如下图所示)。表格的结构通过HTML的结构标记表示,其中的内容即为表格文本中的内容。通过进一步的HTML解析,可以获得每个文本的单元格四点坐标和表格结构信息。

(4)Cell坐标聚合模块,主要用来解决如何将跨行单元格的文本重新拼接在一个单元格内的问题。它通过计算由文本检测算法获得的文本框坐标(红色框)与表格结构预测模块得到的Cell坐标(蓝色框)之间的IOU和顶点距离来进行单行到多行的聚合。使用IOU判断哪些红色框同属于一个蓝色框,使用顶点距离和IOU判断红色框的排列顺序。

(5)Cell文本聚合模块,根据已有的红色文本框顺序,按照从上到下从左到右顺序利用(4)Cell坐标聚合模块的结果将(2)文本识别结果和进行拼接,这样对于多行文本的单元格内容即可拼接成一个字符串。
(6)Excel导出模块,将(3)表格结构预测结果html结果与(5)Cell文本聚合模块文本结果结合,最终导出为Excel输出。

4.PP-Structure使用实例

  • 命令行使用(默认参数,极简)
paddleocr --image _dir=../doc/table/1.png --type=structure
  • Python脚本使用(自定义参数,灵活)
import os
import cv2
from paddleocr import PPStructure ,draw_structure_result, save_structure_res

table_engine = PPStructure(show_log=True)

save_folder = './table'
img_path = './table/1.png'
img = cv2.imread(img_path)
result = table_engine(img)
save_structure_res(result, save_folder, os.path.basename(img_path). split('.')[0])

本文标签: 版面表格技术WeekPP