【Python】PDF转WORD|电子爱好者

admin管理员组
文章数量:1605149

注意，下文中的PDF文档是纯文字格式，而且非扫描版的PDF文件。

如果是扫描版或者带有图片的。可能转起来会出现排版异常并且图片无法保存到.doc文件中。

正文开始：

需要安装依赖包

pdfminer3k

pip install pdfminer3k -i https://pypi.tuna.tsinghua.edu/simple

或者下载资源手动安装。任意选一种即可。

正文部分：

#!/usr/bin/python
# -*- coding: utf-8 -*-

import sys
import importlib

importlib.reload(sys)

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import *
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

'''
解析pdf文件，获取文件中包含的各种对象
'''


# 解析pdf文件函数
def parse(pdf_path):
    fp = open(pdf_path, 'rb')  # 以二进制读模式打开
    # 用文件对象来创建一个pdf文档分析器
    parser = PDFParser(fp)
    # 创建一个PDF文档
    doc = PDFDocument()
    # 连接分析器 与文档对象
    parser.set_document(doc)
    doc.set_parser(parser)

    # 提供初始化密码
    # 如果没有密码 就创建一个空的字符串
    doc.initialize()

    # 检测文档是否提供txt转换，不提供就忽略
    if not doc.is_extractable:
        raise PDFTextExtractionNotAllowed
    else:
        # 创建PDf 资源管理器 来管理共享资源
        rsrcmgr = PDFResourceManager()
        # 创建一个PDF设备对象
        laparams = LAParams()
        device = PDFPageAggregator(rsrcmgr, laparams=laparams)
        # 创建一个PDF解释器对象
        interpreter = PDFPageInterpreter(rsrcmgr, device)

        # 用来计数页面，图片，曲线，figure，水平文本框等对象的数量
        num_page, num_image, num_curve, num_figure, num_TextBoxHorizontal = 0, 0, 0, 0, 0

        # 循环遍历列表，每次处理一个page的内容
        for page in doc.get_pages():  # doc.get_pages() 获取page列表
            num_page += 1  # 页面增一
            interpreter.process_page(page)
            # 接受该页面的LTPage对象
            layout = device.get_result()
            for x in layout:
                if isinstance(x, LTImage):  # 图片对象
                    num_image += 1
                if isinstance(x, LTCurve):  # 曲线对象
                    num_curve += 1
                if isinstance(x, LTFigure):  # figure对象
                    num_figure += 1
                if isinstance(x, LTTextBoxHorizontal):  # 获取文本内容
                    num_TextBoxHorizontal += 1  # 水平文本框对象增一
                    # 保存文本内容
                    with open(r'test.doc', 'a', encoding='utf-8') as f:  # 生成doc文件的文件名及路径
                        results = x.get_text()
                        f.write(results)
                        f.write('\n')
        print('对象数量：\n', '页面数：%s\n' % num_page, '图片数：%s\n' % num_image, '曲线数：%s\n' % num_curve, '水平文本框：%s\n'
              % num_TextBoxHorizontal)


if __name__ == '__main__':
    pdf_path = r'test.pdf'  # pdf文件路径及文件名
    parse(pdf_path)

将需要转换的PDF格式的文件命名为test.pdf，而且和这个.py文件在同一个文件夹下即可

点击运行，会在同级目录下自动生成test.doc文件。

转自：https://blog.csdn/Initiallysunny/article/details/79960838

本文标签： Python PDF word

版权声明：本文标题：【Python】PDF转WORD 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1728479376a1159956.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

vue项目保存页面为pdf 、word

1小时前

vue项目保存页面为pdf 、word pdf下载下载依赖 npm install html2canvasnpm install jspdf公用方法导出页面为PDF格式import html2Canvas from &q

java生成word word转pdf 完美样式兼任

1小时前

1、完美样式的word，最优推荐是springframework(跨平台)2、完美样式的pdf,方案一：jacob.jar(试用Windows操作系统)；方案二：aspose.jar(跨平台；收费；试用版有水印，可破解)；方

pdf在线免费转word网站推荐，纯免费、不注册

1小时前

pdf在线免费转word网站推荐，纯免费、不注册主页 https:www.orcc.online pdf在线免费转word文档 https:orcc.online 不限次数、免费不需要注册&#xf

pdf转word免费

1小时前

终于找到一个pdf免费转word的工具没有5页限制，没有大小限制。保存记录下。 http:pdf2docx

openOffice + jobConverter 实现Word转PDF。完美解决方案

1小时前

一.资源准备 openOffice 下载地址：http:www.openofficedownloadindex.html jobConverter 相关jar包下载地址：https:

Word转PDF 并转成base64（亲测可用）

1小时前

Word转PDF 并转成base64（亲测可用） 摘要：控制台实现类POMGradle扩展其他方式 apose控制台实现类POMGradle扩展其他方式 apose 博主默

Java轻松转换Markdown文件到Word和PDF文档

1小时前

Markdown 凭借其简洁易用的特性，成为创建和编辑纯文本文档的常用选择。但某些时候我们需要更加精致的展示效果，例如在专业分享文档或打印成离线使用的纸质版时，就需要将Mar

java工具word转pdf

1小时前

需求：将文件转为pdf 方案1：使用poi工具参考：使用poi实现Word转pdf - 极墨笔记方案2：使用apose工具参考&#xff1

JAVA 使用aspose把word转pdf

1小时前

文章目录一、下载并引入jar(一般的库里面没有)二、使用步骤1.在resources下新增文件夹lib,将上面下载的两个jar存入2.POM引入3.添加授权文件，在resources下新建文件license.xml4

使用poi+itextpdf将word转成pdf

1小时前

将word转换成pdf确实有很多种方案！ 背景最近正好需要做一个这样的功能，需求是将word模板进行签名后转换为pdf。为此，我花了一点时间去网上找方案。期间遇到了一些

SpringBoot实现Excel、Word转换为PDF

1小时前

😊作者： 一恍过去 💖主页： https:blog.csdnzhuocailing3390 🎊社区&

java html转word、pdf(包含图片)

1小时前

html转word maven依赖 <dependency><groupId>org.apache.poi<groupId><artifactId>poi<artifactId>

导出PDF里的指定章节(页数)到Word

1小时前

WPS支持将PDF转成.docx格式，也支持导出指定章节或页数的段落到.doc文件。这里以WPS导出“第13章 Instruments“为例，进行说明。 1 用WPS打开pdf文件将pdf拖曳

SpringBoot使用LibreOffice word转换PDF

1小时前

由于java转pdf Aspose需要收费，documents4j是使用本地的MS Office应用做的文件格式转换，Linux没有对应的MS Office应用。这样造成了我们需要选用别的方式进行

libreoffice实现word,excel等转换成pdf

1小时前

1、准备工作环境：centos7libreoffice版本：LibreOffice_5.4.6 2、安装过程用远程连接工具将下载的LibreOffice_5.4.6.gz发送到服

pdf转word软件

1小时前

PDF2Word能够从PDF格式文档中提取文字、图形和其它内容存放入Word格式文档中，因此你就能重复利用你的PDF文档内容，在Word中再编辑文字、排版及重整 ... PDF转的相关搜索p

markdown转word （vscode插件+wps法）

1小时前

1.用vscode下载一个markdown转换的插件，我用的：Markdown PDF 2.vscode打开markdown文件，然后在文件页面右键，将

itext word怎么转成pdf

1小时前

import java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;import java.util.Iterator;import java

spring boot2.X word转pdf

1小时前

word转pdf需要借助jodconverter和工具LibreOffice。虽然市面上有很多转换的工具以及技术但是spring boot对LibreOffice进行了整合并且window和linux都支持的。本文章以window系

Java实现Word转PDF【完整版】

1小时前

前言： 最近也是在非常紧急的准备暑期实习的面试，一边学习一边修补简历，因为之前看到某位大佬的帖子说建议投递的简历形式为PDF，这一下可是把我难死了&a

电子爱好者 - 最新技术资讯及电子产品介绍！

【Python】PDF转WORD

更多相关文章

vue项目保存页面为pdf 、word

java生成word word转pdf 完美样式兼任

pdf在线免费转word网站推荐，纯免费、不注册

pdf转word免费

openOffice + jobConverter 实现Word转PDF。完美解决方案

Word转PDF 并转成base64（亲测可用）

Java轻松转换Markdown文件到Word和PDF文档

java工具word转pdf

JAVA 使用aspose把word转pdf

使用poi+itextpdf将word转成pdf

SpringBoot实现Excel、Word转换为PDF

java html转word、pdf(包含图片)

导出PDF里的指定章节(页数)到Word

SpringBoot使用LibreOffice word转换PDF

libreoffice实现word,excel等转换成pdf

pdf转word软件

markdown转word （vscode插件+wps法）

itext word怎么转成pdf

spring boot2.X word转pdf

Java实现Word转PDF【完整版】

发表评论

推荐文章

win7 docker的安装与使用

微软关闭中国所有线下店，并不影响全球第一

Qt连接CAD插件

Google Play市场包体大小判断

Windows10安装pycharm-professional

热门文章

MAC 设计师必备的设计绘图软件 推荐与下载

PikPak离线下载，磁力网盘

阿里云中配置tomcat的https服务

拯救者Legion Y9000P 2021H原厂系统镜像：重塑你的游戏体验

计算机蓝屏代码0x000000ED,电脑蓝屏代码0x000000ed的解决方法

美通企业日报 | 阿斯利康在京建中国北部总部；安踏用废弃塑料瓶打造环保服装...

小偷模拟器 Thief Simulator V20230207 最新中文学习版 单机游戏游戏下载免安装【3.27G】

AutoCAD许可证升级指南

cad无法加载arx文件_CAD文件无法打开，这两点原因你必须要知道

Mac配置

最新文章

php音乐播放器带进度条的,Flex播放器(实现播放、缓冲进度条和音频曲线显示)

Adobe Director MX 2004：多媒体创作与互动设计

苹果cms（maccms） player播放器解密

XPlayer 开源视频播放器教程

痞子衡嵌入式：基于恩智浦i.MXRT1060的MP4视频播放器(RT-Mp4Player)设计

ios android 视频格式,最佳iOS Android手机通用格式高清视频播放器: nPlayer-cue文件

ZArchiver Pro、MX Player Pro两款专业应用让你的手机更专业

Android os 4.4.4 魅族,魅族Mx3刷机包 Android 4.4.4 稳定版Flyme OS 3.7.3A 流畅顺滑体验

【正点原子Linux连载】第十三章 多媒体 摘自【正点原子】I.MX6U嵌入式Qt开发指南V1.0.2

YUV视频格式到RGB32格式转换的速度优化 上篇

IMX6ULL-QT项目之mplayer音乐播放器-交叉编译mplayer

【计算机毕设文章】音乐播放器管理系统

Android病毒家族及行为（一）

Socket接收的视频流怎样保存和播放

Android平台mass storage相关代码

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

MAC 设计师必备的设计绘图软件推荐与下载

小偷模拟器 Thief Simulator V20230207 最新中文学习版单机游戏游戏下载免安装【3.27G】

【正点原子Linux连载】第十三章多媒体摘自【正点原子】I.MX6U嵌入式Qt开发指南V1.0.2

YUV视频格式到RGB32格式转换的速度优化上篇

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载