Week:7 版面分析与表格识别技术：PP-Structure|电子爱好者

admin管理员组
文章数量:1530517

2021SC@SDUSC

1.核心功能

支持对图片形式的文档进行版面分析，可以划分文字、标题、表格、图片以及列表5类区域（与Layout-Parser联合使用）
支持文字、标题、图片以及列表区域提取为文字字段（与PP-OCR联合使用）
支持表格区域进行结构化分析，最终结果输出Excel文件
支持Python whl包和命令行两种方式，简单易用
支持版面分析和表格结构化两类任务自定义训练

2.版面分析与表格识别核心技术

（1）传统方法：版面分析比较著名的是O’Gorman在1993年TPAMI中发表的算法Docstrum。通过自下而上的方法依次将图像中的黑白连通域划分为文字、文本行与文本块，从而得到版面布局。表格识别的传统方法通过腐蚀、膨胀等操作获得表格线、划分行列区域，然后将单元格与文本内容相结合重构为表格对象。但是传统算法主要问题在于，对于版面布局分析和表格结构的提取，图像处理的方法依赖各种阈值和参数的选择，对于不同场景下的文档图片难以保证泛化性。
（2）深度学习方法：除了直接使用检测模型来对版面内容进行分类以外，还融合了检测、分割、图神经网络、注意力机制等众多前沿技术能力。依赖算法工程师对于深度神经网络的精心设计，可以不再依赖阈值与参数，具有更好的泛化性。

3.PP-Structure核心技术解读

版面分析技术
PP-Structure的版面分析技术，主要是对图片形式的文档进行版面分析，将文档划分为文字、标题、表格、图片以及列表5类区域（与Layout-Parser联合使用）。其核心技术思路与Layout-Parser项目密切合作，参考了Layout-Parser的工程结构设计，配合PaddleDetection开源的高效检测算法PP-YOLO v2，在数据集TableBank和PubLayNet上mAP分别达到93.6和96.2， NVIDIA Tesla P40 耗时仅需66.6ms，且可以支持用户根据自己的数据自定义训练。
表格识别技术
表格识别技术则主要使用基于注意力机制的图片描述模型RARE，整体流程如下图所示，对于其中的表格区域进行表格识别处理。

表格识别的难点主要在于表格结构的提取，以及将表格信息与OCR信息融合。整体流程可以分为上下两部分，其中上半部分（黑色支路）是普通的OCR过程，通过（1）文本检测模块对表格图片进行单行文字检测，获得坐标，然后通过（2）文本识别模块识别模型得到文字结果。而在下半部分的在蓝色支路中，表格图片首先经过（3）表格结构预测模块，获得每个Excel单元格的四点坐标与表格结构信息。结合黑色支路文本检测获得的单行文字文本框4点坐标，共同输入（4）Cell坐标聚合模块，再通过（5）Cell文本聚合模块，将属于同一单元格的文本拼接在一起。最后结合表格结构信息，通过（6）Excel导出模块获得Excel形式的表格数据。

下面分别针每个模块分别展开介绍。
（1）文本检测模块和（2）文本识别模块：主要使用PP-OCR提供的检测和识别算法。
（3）表格结构预测模块，主要使用基于Attention的图片描述模型RARE，RARE模型可以实现：输入一张图片，通过带有注意力机制的网络输出一段文字，描述图片的内容，如下图所示。

而针对于表格图片的图片描述网络，输入一张经过版面分析的表格图片，输出的是一串HTML字符（如下图所示）。表格的结构通过HTML的结构标记表示，其中的内容即为表格文本中的内容。通过进一步的HTML解析，可以获得每个文本的单元格四点坐标和表格结构信息。

（4）Cell坐标聚合模块，主要用来解决如何将跨行单元格的文本重新拼接在一个单元格内的问题。它通过计算由文本检测算法获得的文本框坐标（红色框）与表格结构预测模块得到的Cell坐标（蓝色框）之间的IOU和顶点距离来进行单行到多行的聚合。使用IOU判断哪些红色框同属于一个蓝色框，使用顶点距离和IOU判断红色框的排列顺序。

（5）Cell文本聚合模块，根据已有的红色文本框顺序，按照从上到下从左到右顺序利用（4）Cell坐标聚合模块的结果将（2）文本识别结果和进行拼接，这样对于多行文本的单元格内容即可拼接成一个字符串。
（6）Excel导出模块，将（3）表格结构预测结果html结果与（5）Cell文本聚合模块文本结果结合，最终导出为Excel输出。

4.PP-Structure使用实例

命令行使用（默认参数，极简)

paddleocr --image _dir=../doc/table/1.png --type=structure

Python脚本使用(自定义参数，灵活)

import os
import cv2
from paddleocr import PPStructure ,draw_structure_result, save_structure_res

table_engine = PPStructure(show_log=True)

save_folder = './table'
img_path = './table/1.png'
img = cv2.imread(img_path)
result = table_engine(img)
save_structure_res(result, save_folder, os.path.basename(img_path). split('.')[0])

本文标签：版面表格技术 Week PP

版权声明：本文标题：Week:7 版面分析与表格识别技术：PP-Structure 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1725839822a1044895.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Week:7 版面分析与表格识别技术：PP-Structure

1.核心功能

2.版面分析与表格识别核心技术

3.PP-Structure核心技术解读

更多相关文章

WPS表格：函数公式

Java读取Excel表格公式对应的值

腾讯云海外音视频技术架构 — 挑战和优化

精选腾讯技术干货200+篇，云加社区全年沙龙PPT免费下载！

【搜索引擎基础知识1】搜索引擎的技术架构

Android通过hook技术实现透明解密…

【云计算学习教程】云计算虚拟化技术和容器技术详解

Docker技术 ( 容器虚拟化技术 )

游戏开发入门如何点亮技术树？

web开发技术和技术分享_2020年将改变Web开发的顶级技术

【技术分享】基于浏览器的指纹识别技术（含缓解方案）

2006年的IT十大战略技术

如何设计一个聊天机器人？谈谈聊天机器人技术栈

设计聊天机器人技术栈的终极攻略

自制计算机考试系统,用WPS表格制作考试系统 -电脑资料

探索 DeanNg 的 `3rd_security_competition`: 技术驱动的安全竞技场

关于ChatGPT等AIGC技术对人类社会的影响

amd显卡Linux查看显存,通过软件查看显存参数_显卡_显卡技术应用-中关村在线

[技术解读]英伟达NVIDIA的3D-VISION和AMD-HD3D主动快门立体方案

密码安全攻防技术精讲

发表评论

推荐文章

调用chatgpt官方api实现聊天和绘图

U盘图标更改 简单三步教你个性化定制U盘图标！自定义修改你的U盘

三、Win10系统怎么自动清理缓存，无需手动按时清理磁盘，自动释放空间哦

【Win32 API学习】模拟键盘输入和鼠标输入

公司里开发用的机器，虚拟机、网络、转发、ssh连接、远程桌面、远程开机……等一系列骚操作的操作概述

热门文章

2013 android手机杀毒软件 评测,测试总评与安卓手机杀软推荐

笔记本电脑怎么打不开计算机,笔记本电脑黑屏了打不开怎么办 笔记本电脑黑屏是什么原因...

记录第一次ANN跑BCI Competition iv 2a过程

生成模型之VAE与VQ-VAE

安装window7系统

win7 快捷键，Thinkpad 组合键

Centos7开机不久桌面卡住，只有鼠标可以移动的解决办法

tensorflow在AMD上用ROCm框架实现GPU训练（亲测有效）

更改我的网页默认的暴风影音播放器

Ubuntu 1804上安装搜狗拼音输入法

最新文章

win11浏览器默认主页如何设置

Win11 Excel文件变成白板图标怎么解决？

减少win11核显占用的内存怎么操作

win2012 r2 php mysql,在Windows Server2012 R2上安装WordPress PHP和MYSQL

Win11录屏数据保存在哪里？Win11录屏数据保存的位置

原版win7系统怎么安装,原版Win7系统的安装步骤

Win11显示麦克风未插上怎么办？Win11显示麦克风未插上的解决方法

Win11更改声音输出设备有什么方法？

Win11鼠标动不了如何恢复？Win11鼠标动不了恢复的方法

Win11磁盘清理在哪打开？

Win11隐藏输入法状态栏方法

Win10一键修复所有dll缺失的方法

Win11怎么把桌面文件路径改到D盘

Win11图标变暗怎么办？Win11图标变暗的解决方法

Win11小组件怎么添加待办事项？Win11添加待办事项小组件的方法

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

U盘图标更改简单三步教你个性化定制U盘图标！自定义修改你的U盘

2013 android手机杀毒软件评测,测试总评与安卓手机杀软推荐

笔记本电脑怎么打不开计算机,笔记本电脑黑屏了打不开怎么办笔记本电脑黑屏是什么原因...

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载