Paddle-ocr pdf-to-word操作指南|电子爱好者

admin管理员组
文章数量:1605159

1. 安装

1.1 安装PaddlePaddle

您的机器安装的是CUDA9或CUDA10，请运行以下命令安装

python3 -m pip install paddlepaddle-gpu -i https://mirror.baidu.com/pypi/simple

您的机器是CPU，请运行以下命令安装

python3 -m pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple

更多的版本需求，请参照飞桨官网安装文档中的说明进行操作。

1.2 安装PaddleOCR whl包
pip install “paddleocr>=2.0.1” # 推荐使用2.0.1+版本
对于Windows环境用户：直接通过pip安装的shapely库可能出现[winRrror 126] 找不到指定模块的问题。建议从这里下载shapely安装包完成安装。

2 下载代码

git clone https://github.com/PaddlePaddle/PaddleOCR.git

3. 两种方式实现pdf to word

3.1 使用提供的代码实现转换

1.使用这个网站PDF转化将pdf文件拆分成若干个单个pdf页

运行这个python文件

python ppstructure/pdf2word/pdf2word.py

2.得到输入的word文档使用一下代码将多个word文档合成一个word文档

import os
from docx import Document

def merge_docx_from_folder(folder_path, output_file):
    # 创建一个空白的目标文档
    merged_doc = Document()

    # 遍历指定文件夹中的所有文件
    for filename in os.listdir(folder_path):
        if filename.endswith(".docx"):
            # 构造完整的文件路径
            file_path = os.path.join(folder_path, filename)

            # 打开当前的 Word 文件
            doc = Document(file_path)

            # 遍历当前 Word 文件的每个段落，并逐段复制到目标文档
            for para in doc.paragraphs:
                merged_doc.add_paragraph(para.text)

            # 添加分页符，区分不同文件的内容
            merged_doc.add_page_break()

    # 保存合并后的文档
    merged_doc.save(output_file)

# 指定要合并的文件夹路径和输出文件名
folder_path = r"E:\graduate\work\haohanshendu\work\code\ocr_for_transcribing_pdf_slides-main\input_images\output"
output_file = "merged_output.docx"

# 调用函数执行合并操作
merge_docx_from_folder(folder_path, output_file)

使用ppstructure/predict_system.py 自定义使用模型进行转换

修改一下代码

在模型库1模型库2寻找模型地址

运行ppstructure/predict_system.py文件

本文标签：操作指南 OCR Paddle word PDF

版权声明：本文标题：Paddle-ocr pdf-to-word操作指南内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1728480006a1160007.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

Aspose工具实现word和ppt转pdf功能及遇到的一些问题

1小时前

Aspose工具包从word和ppt转到pdf的实现过程直接放项目地址说一下实现过程中遇到的坑直接放项目地址 https:githublichangliu1098File2Pdf 说一下实现过程中遇到的坑 jar包的引入&a

Word转Pdf(三行代码搞定)

1小时前

其实真的很简单，今天突然小伙伴向我抱怨word转pdf超过一页要收费，问我怎么办？收费，不可能的。loading.....OK! 第一步找jar包&am

java生成word word转pdf 完美样式兼任

1小时前

1、完美样式的word，最优推荐是springframework(跨平台)2、完美样式的pdf,方案一：jacob.jar(试用Windows操作系统)；方案二：aspose.jar(跨平台；收费；试用版有水印，可破解)；方

pdf转word免费

1小时前

终于找到一个pdf免费转word的工具没有5页限制，没有大小限制。保存记录下。 http:pdf2docx

openOffice + jobConverter 实现Word转PDF。完美解决方案

1小时前

一.资源准备 openOffice 下载地址：http:www.openofficedownloadindex.html jobConverter 相关jar包下载地址：https:

Word转PDF 并转成base64（亲测可用）

1小时前

Word转PDF 并转成base64（亲测可用） 摘要：控制台实现类POMGradle扩展其他方式 apose控制台实现类POMGradle扩展其他方式 apose 博主默

Java轻松转换Markdown文件到Word和PDF文档

1小时前

Markdown 凭借其简洁易用的特性，成为创建和编辑纯文本文档的常用选择。但某些时候我们需要更加精致的展示效果，例如在专业分享文档或打印成离线使用的纸质版时，就需要将Mar

使用简短代码便可实现word批量转pdf

1小时前

本方法可在系统文件夹中，将文件夹里的word文档批量转换成pdf格式，且无需借助工具。代码如下： Convert .doc or .docx to .pdf files

Linux(CentOS)下使用unoconv转换word到pdf

1小时前

首先安装libreoffice yum install -y libreoffice.x86_64 下载或者克隆unoconv wget https:githubunoconvunoconvarchivemaster.zip

4、【办公自动化】Python实现Word转PDF

1小时前

在日常办公过程中，总是离不开和文档打交道，有一个最常用的场景就是把 Word 文档转成 PDF 格式。PDF 文档的优势在于：在不同编辑器或不同设备上，

JAVA 使用aspose把word转pdf

1小时前

文章目录一、下载并引入jar(一般的库里面没有)二、使用步骤1.在resources下新增文件夹lib,将上面下载的两个jar存入2.POM引入3.添加授权文件，在resources下新建文件license.xml4

使用poi+itextpdf将word转成pdf

1小时前

将word转换成pdf确实有很多种方案！ 背景最近正好需要做一个这样的功能，需求是将word模板进行签名后转换为pdf。为此，我花了一点时间去网上找方案。期间遇到了一些

MATLAB 文件处理的一种方式，如pdf、word、excel等

1小时前

通过创建vbs文件，然后结合vbs来对文件进行操作 VBS是基于Visual Basic的脚本语言。VBS的全称是：Microsoft Visual Basic Script Edition。&a

Spring Boot写一个简单的PDF到Word的转换程序

1小时前

使用Spring Boot创建PDF到Word的转换程序需要几个步骤。可以使用现有的库来处理转换过程。使用ApachePDFBox进行PDF操作和使用ApachePOI创建Word文档的过程。添加依赖项: 将以下依赖项添加到“pom.xm

PDF文档免费转成Word文档，不限页数。

1小时前

链接1：https:download.csdndownloadAuspicious_air18661582 链接2：https:download.csdndownloadAus

（Java）word转pdf(aspose)，pdf加水印(itextpdf)，并支持POI模板（包括checkbox）导出

1小时前

目录 1、引入jar包 2、pdf处理工具类 3、poi模板导出工具类 4、测试类 5、模板 6、最终效果 1、引入jar包 2、pdf处理工具类 import com.aspose.cells.PdfSaveOptions

itext word怎么转成pdf

1小时前

import java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;import java.util.Iterator;import java

Word如何转PDF

1小时前

Word如何转PDF 第一步：打开Word文件在左角找到图标点击选择:”另存为” 第二步：选择点击“Adobe pdf” 第三步：选择保存的位置“桌面”&#xff

用Python轻松实现Word文档到PDF的批量转换

1小时前

Word文件（Doc、Docx）和PDF文件都是使用广泛的文档格式。其中，Word文档格式在编辑内容时优势明显，能够满足各种编辑需求。但想要保证文档的完

Java代码实现word转PDF

1小时前

import com.spire.doc.Document; import com.spire.doc.FileFormat; import lombok.extern.slf4j.Slf4j; public class WordCon

电子爱好者 - 最新技术资讯及电子产品介绍！

Paddle-ocr pdf-to-word操作指南

1. 安装

1.1 安装PaddlePaddle

2 下载代码

3. 两种方式实现pdf to word

3.1 使用提供的代码实现转换

使用ppstructure/predict_system.py 自定义使用模型 进行转换

更多相关文章

Aspose工具实现word和ppt转pdf功能及遇到的一些问题

Word转Pdf(三行代码搞定)

java生成word word转pdf 完美样式兼任

pdf转word免费

openOffice + jobConverter 实现Word转PDF。完美解决方案

Word转PDF 并转成base64（亲测可用）

Java轻松转换Markdown文件到Word和PDF文档

使用简短代码便可实现word批量转pdf

Linux(CentOS)下使用unoconv转换word到pdf

4、【办公自动化】Python实现Word转PDF

JAVA 使用aspose把word转pdf

使用poi+itextpdf将word转成pdf

MATLAB 文件处理的一种方式，如pdf、word、excel等

Spring Boot写一个简单的PDF到Word的转换程序

PDF文档免费转成Word文档，不限页数。

（Java）word转pdf(aspose)，pdf加水印(itextpdf)，并支持POI模板（包括checkbox）导出

itext word怎么转成pdf

Word如何转PDF

用Python轻松实现Word文档到PDF的批量转换

Java代码实现word转PDF

发表评论

推荐文章

如何在桌面上显示我的计算机,怎么在桌面显示我的电脑 - 卡饭网

制作Win10安装U盘（量产PE+UEFI）双引导

Realtek：电脑更新后，在主机前面板插上耳机没有声音，怎么解决？

惠普笔记本和台式机专业GhostXP_SP3装机系统稳定版 V2011.07

CAD数据文件格式DXF部分实体(圆弧、椭圆、凸度)解析[原理讲解+公式推导+java实现]

热门文章

windows的软件能在鸿蒙系统运行吗,如果鸿蒙系统能不能兼容windows的所有应用软件，会让你惊喜吗...

重装Ubuntu18.04的经历，有线宽带连接、飞机图标问题经历两天终于成功了。

【opencv】【GPU】windows10下opencv4.8.0-cuda Python版本源码编译教程

win10电脑桌面便签怎么固定在桌面？

远程桌面连接保存登陆用户以及密码(凭据)备份方法

文件系统FastDFS和阿里云OSS

闲置台式机+文件服务器,牛人闲置电脑大改造！超低成本组建家用黑群晖NAS

window10系统设置显示蓝屏

上传Google play后测试用户不能下载 Android app is supported by 0 devicesuses-feature 和 uses-permission区别

最新华为EMUI 11.0.0 Mate40和Mate30成功安装Google play及谷歌套件（附带解决谷歌弹窗）的方法

最新文章

迅为i.MX8M Mini开发板外设功能测试

新版V10MXone Pro自适应苹果CMS影视模板亲测

linux nas mp4 播放器,我的NAS我的地盘 篇十：威联通NAS软件介绍与应用之QVideo篇

php音乐播放器带进度条的,Flex播放器(实现播放、缓冲进度条和音频曲线显示)

Adobe Director MX 2004：多媒体创作与互动设计

Linux项目：《视频监控》基于正点原子I.MX6ULL_MINI板

魅族mx3升级到android6.0,魅族魅蓝6官方完整版固件系统升级更新包：Flyme 7.3.0.0A...

【正点原子Linux连载】第三章 初识Qt摘自【正点原子】I.MX6U嵌入式Qt开发指南V1.0.2

ios android 视频格式,最佳iOS Android手机通用格式高清视频播放器: nPlayer-cue文件

ZArchiver Pro、MX Player Pro两款专业应用让你的手机更专业

酷视网页视频VR播放器SDK（旗舰版）使用说明书

19版本Linux界面,世界排名第一的Linux系统—MX Linux 19.2 KDE 版正式发布

android添加本地视频播放器,找到令人满意的Android本地视频播放器是如此困难吗？...

轻量化中文版linux,MX Linux：一款专注于简洁性的中等体量发行版 | Linux 中国

IMX6ULL-QT项目之mplayer音乐播放器-交叉编译mplayer

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

使用ppstructure/predict_system.py 自定义使用模型进行转换

linux nas mp4 播放器,我的NAS我的地盘篇十：威联通NAS软件介绍与应用之QVideo篇

【正点原子Linux连载】第三章初识Qt摘自【正点原子】I.MX6U嵌入式Qt开发指南V1.0.2

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载