一键提取pdf中的表格|电子爱好者

admin管理员组
文章数量:1648939

前言：

因工作需要，现在需要将pdf中的表格原封不对的输出csv或者数据库表，然后开启了苦逼的调研之路。经过调研，目前支持从可编辑pdf中读取出表格的Python库有：pdfminer3k、tabula、pdfplumber 等。三个库都有瑕疵。但是比好用的话我还是更偏向 pdfplumber 。自我感觉pdfplumber 简单易于实现功能。下面文章是关于 pdfplumber 的介绍。如对另外两个Python库感兴趣的话可以自行查看相关资料。对于pdf中非可编辑（图片中表格识别）问题，可能这个库就帮不上你什么忙了。

一、pdfplumber介绍

1.1、介绍

1.2、代码开源git地址

1.3、官方文档

1.4、安装方式

二、简单使用

2.1、数据集介绍

2.2、代码实现

3.3、结果输出

一、pdfplumber介绍

1.1、介绍

先看一段官方介绍：pdfplumber支持垂直查看PDF，查看每个文本字符、矩形和行的详细信息。附加功能：表提取和可视化调试。最适合机器生成的，而不是扫描的pdf文件。总体来说pdfplumber是一个集多种功能为一身的pdf处理工具。

1.2、代码开源git地址

GitHub - jsvine/pdfplumber: Plumb a PDF for detailed information about each char, rectangle, line, et cetera — and easily extract text and tables.

1.3、官方文档

pdfplumber · PyPI

1.4、安装方式

pip install pdfplumber

二、简单使用

2.1、数据集介绍

数据为交易流水，pdf表格为可编辑。目的是将表格里的数据提取出来。

2.2、代码实现

import pdfplumber

# path = 'D:\\202104147187110045_1.pdf'
path = '../recognize_img/demo_img/有框表格可编辑.pdf'
pdf = pdfplumber.open(path)


# 获取pdf页数对象
print(pdf.pages)    # [<Page:1>]


count = 0
for page in pdf.pages:
    count += 1
    #  page.extract_text()可以抓取当前页的全部信息，因为内容较多就先注释。
    # print(page.extract_text())

    for table in page.extract_tables():
        for row in table:
            print(row)
        print(f'============ 第{count}页解析结束 ============')



# 转为dataframe输出
# pass


pdf.close()

3.3、结果输出

结果是以每行列表的形式输出的。如果有需要csv或者数据库需求的话，可以先将下面的数据转为dataframe，然后再输出到目标源。

本文标签：一键表格 PDF

版权声明：本文标题：一键提取pdf中的表格内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1729504799a1203502.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

H5内嵌到APP-实现PDF浏览功能

2小时前

1、下载插件 npm install vue-pdf-embed vue3-pdfjs vue3-pdfjs：获取PDF文件总页数 2、页面引入并使用 <template><div class

H5移动端，vue2实现pdf预览，亲测后很简单

2小时前

1.安装pdf.js npm i vue-pdf npm i vue-pdf-signature（pdfjs本地预览没有问题，上架服务器之后存在问题，二次预览文字丢失） 2.引入 import { Toast } from &quo

vue移动端实现pdf、excel、图片在线预览

2小时前

vue移动端实现pdf、excel、图片在线预览一、首先预览pdf安装vue-pdf,预览excel安装xlsx，预览图片是用的vant npm install --save vue-pdf npm insta

react react-pdf实现在线pdf加载（翻页加载、下拉滚动加载）

2小时前

目录导入react-pdf在文件中引入并使用下拉展示导入react-pdf npm i react-pdf -S或 yarn add react-pdf在文件中引入并使用从react-pdf引入会有不知名错误&#xff0c

Vue3预览并打印PDF的两种方法

2小时前

项目场景：后台接口请求数据，返回PDF文档的链接（即pdf文件在服务器上的存放路径），在vue3页面可预览和打印该PDF。在之

web端vue2使用pdf发票内容显示不全的问题,展示xls和xlsx问题

2小时前

1.安装pdf的版本要求(注意版本) pdf安装版本"vue-pdf-signature": "^4.2.7","pdfjs-dist": "^2.5.207&qu

react-pdf预览pdf

2小时前

一、起因有个需求是在线预览pdf的功能，本来用浏览器也能直接预览，所以一开始的思路就是直接加一个<iframe src"url"><iframe>

vue3实现pdf文件预览，分页，放大缩小

2小时前

很多pdf插件不支持vue3，或者是没有集成翻页放大缩小功能，故写此分享。 1. 安装依赖 npm i vue-pdf-embed -Snpm i vue3-pdfjs -S <tem

使用Vue-PDF实现预览、翻页、放大缩小、侧边栏预览

2小时前

需求 pdf预览翻页禁止下载打印侧边栏预览实现效果安装vue-pdf npm i vue-pdf引入并使用 <pdfref"pdfRef"style"margin: 0 auto":

Vue 集成 PDF.js 实现 PDF 预览和添加水印

2小时前

在 Vue 中集成 MozillaPDF.js ，实现自定义的 PDF 预览器，以及给被预览的 PDF 添加水印实现效果可用插件介绍 Mozilla 提供了 PDF.js 和 pdfjs-

（已解决）jspdf + html2canvas实现导出html为PDF文件（高清、分页）解决图片和表格被分割截断以及滚动条的问题。（含源码及详细解释）

2小时前

目录一、项目背景二、实现过程三、解决图片和表格分割截断以及滚动条的问题一、项目背景最近项目中需要实现将html页面的数据导出到pdf文件，并提供给客户端下载。在查找了一些资料之后，打算使用jspdf

Java使用 itext7 导出pdf ，表格跨页分行问题

2小时前

Java使用 itext7 导出pdf ，表格跨页分行问题问题描述： 项目中使用的是7版本的itext，创建document后，往文档中插入表示使用

vue-pdf实现文件预览放大、缩小、上下页

2小时前

1.下载依赖 cnpm install --save vue-pdf 2.代码 <style lang"less" scoped>.main {overflow: auto;max-width: 3

Vue-PDF-Embed 使用指南

2小时前

Vue-PDF-Embed 使用指南 vue-pdf-embedPDF embed component for Vue 2 and Vue 3项目地址:https:gitcodegh_mirrorsvuvue-pdf-embed

Qt显示pdf系列2——QAxWidget打开Office文件及pdf

2小时前

序一QAxwidget操作office二QAxwidget操作pdf三总结承接上章，该扯皮的扯完了，直接进入正题：序顾名思义，这篇先介绍下QAxwidget来操作office和pdf QAxwidget，即一个ActiveX控件的

pdf文件预览vue3

2小时前

1、依赖 npm i pdfjs-dist npm i vue-pdf-embed2、代码实现 <template><div class"pdf-preview"><div cl

pdf在h5显示：vue-pdf 与 pdf.js

2小时前

需求： 在h5端预览pdf，同时需要判断pdf已经看完，要保存pdf的当前页面，下次打开的时候要回到当前页方式：vue-pdf

移动端vue2使用vue-pdf当前页面预览(分页优化)

2小时前

1.继续上次的PDF预览优化,为解决文件过多一次性加载超长时间问题,做出分页效果,进行分页加载 ### 模板 <template><div class"page"><MyHeader p

vue导出多页PDF截断问题

2小时前

一、前言个人网站上线了，欢迎大家访问苏浩的个人博客使用的第三方：html2canvas 和 jspdf 为了一劳永逸（更好的偷懒）&#x

Docker容器化K8s集群部署教程（一键部署sheel脚本）

1小时前

本文通过脚本，可以快速地部署和配置Kubernetes环境，省去了各插件手动部署、配置的繁琐过程。先看最终结果： [rootlocalhost home]# kubect

电子爱好者 - 最新技术资讯及电子产品介绍！

一键提取pdf中的表格

一、pdfplumber介绍

1.1、介绍

1.2、代码开源git地址

1.3、官方文档

1.4、安装方式

二、简单使用

2.1、数据集介绍

2.2、代码实现

3.3、结果输出

更多相关文章

H5内嵌到APP-实现PDF浏览功能

H5移动端，vue2实现pdf预览，亲测后很简单

vue移动端实现pdf、excel、图片在线预览

react react-pdf实现在线pdf加载（翻页加载、下拉滚动加载）

Vue3预览并打印PDF的两种方法

web端vue2使用pdf发票内容显示不全的问题,展示xls和xlsx问题

react-pdf预览pdf

vue3实现pdf文件预览，分页，放大缩小

使用Vue-PDF实现预览、翻页、放大缩小、侧边栏预览

Vue 集成 PDF.js 实现 PDF 预览和添加水印

（已解决）jspdf + html2canvas实现导出html为PDF文件（高清、分页）解决图片和表格被分割截断以及滚动条的问题。（含源码及详细解释）

Java使用 itext7 导出pdf ，表格跨页分行问题

vue-pdf实现文件预览放大、缩小、上下页

Vue-PDF-Embed 使用指南

Qt显示pdf系列2——QAxWidget打开Office文件及pdf

pdf文件预览vue3

pdf在h5显示：vue-pdf 与 pdf.js

移动端vue2使用vue-pdf当前页面预览(分页优化)

vue导出多页PDF截断问题

Docker容器化K8s集群部署教程（一键部署sheel脚本）

发表评论

推荐文章

php 输入 保留格式化,phpstorm实现保存(ctrl+s)同时格式化代码的方法

vue分享至qq空间，新浪微博，微信朋友圈及微信好友

微信小程序demo：QQ音乐；音乐搜索，音乐列表及播放停止

个人电脑虚拟环境的搭建（VMwareWorkstation Pro）

计算机控制面板设置命令,电脑的控制面板在哪打开，分享四种打开方法

热门文章

hsHlztsz.dll文件丢失：错误原因、影响分析及解决方案全解

显示msvcp140.dll丢失要如何解决？这5种方法高效修复msvcp140.dll

WebOffice 文档在线编辑

AI智能聊天问答系统源码+AI绘画系统+图文搭建部署教程，文生图图生图，TTS语音识别输入，AI智能体，文档分析

MyCat权威指南阅读笔记(基础篇)

android QQ第三方登陆 错误 登陆授权失败（错误码：110406）

Windows 10 美式键盘消失 解决方案

Spring Security笔记：登录用户时，总提示 User account is locked

vue实现pdf高亮显示，以及矩形绘图(vue-pdf插件使用)

【机器学习(四)】分类和回归任务-梯度提升决策树(Gradient Boosting Decison Tree,GBDT)算法-Sentosa_DSML社区版

最新文章

打开计算机任务栏有桌面没,电脑桌面任务栏不显示打开的窗口怎么办

C#【必备技能篇】使用批处理脚本（.bat文件）打开控制台应用程序

数控计算机键面英语怎么认,设备按钮面板 数控机床操作面板按键详解

台式计算机图形设置,如何打开计算机图形设置以提高游戏质量？

控制面板中点击管理工具提示administrative tools 位置不可用的解决办法

兄弟机cnc系统面板图解_FANUC机床CNC操作面板说明

开启台式机前面板耳机

如何默认管理员身份打开cmd控制台

Axure的动态面板介绍

搭建青龙面板每日自动拿京豆

FRP-内网穿透-frps服务端-WEB管理面板-Dashboard

该文件没有程序与之关联来执行操作，请在控制面板的文件夹选项中创建关联的解决办法

汽车空调面板全国产化电子元件推荐方案

win10声音控制面板扬声器默认设备显示未插入扬声器

Linux之宝塔面板安装和使用

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

php 输入保留格式化,phpstorm实现保存(ctrl+s)同时格式化代码的方法

android QQ第三方登陆错误登陆授权失败（错误码：110406）

Windows 10 美式键盘消失解决方案

数控计算机键面英语怎么认,设备按钮面板数控机床操作面板按键详解

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载