Python实用功能之pdf文件转png图片数据|电子爱好者

admin管理员组
文章数量:1581546

今天遇上一个问题就是需要将几个pdf合并起来，我百度了一下有哪些方法可以做，可以先看下：

第一种：使用“iLovePDF”（在线端）

这是一个国外的免费在线PDF文件处理工具，它提供了PDF合并、PDF拆分、PDF压缩、PDF签名、旋转PDF、PDF转Word、PDF转Excel等服务，无需安装任何软件和插件，直接在线就能完成操作。官网地址在这里，首页截图如下所示：

当然了也可以下载离线包本地安装也是可以的。

第二种：使用“全能PDF转换助手”（PC端）

这是一款多功能的PDF处理工具，它不仅支持Word、Excel、PPT、图片等多种文件格式与PDF格式之间的转换，还支持PDF合并、PDF分割、PDF加解密、PDF压缩、PDF编辑等功能。官网地址在这里，首页截图如下所示：

我下载体验了一下结果发现直接就要收费，果断放弃了。

第三种：使用“PDF Converter”（在线端）

这是一个国外的在线PDF转换处理网站，它支持PDF转Excel、PDF转Word、PDF转PPT、PDF合并等功能，且该网站界面简洁，操作简单。不过它的转换效率比较慢，上传的文件需要等待几分钟才能转换成功。官方地址在这里，首页截图如下所示：

这个我自己也体验了一下，速度奇慢无比，难以接受，放弃。

第四种：万能PDF转换器

跟全能PDF转换助手是类似的形式，这里就不再多介绍了，感兴趣的话可以自行使用，官方地址在这里，首页截图如下所示：

当然了可能还会有第五种第六种。。。，不过我已经不想再使用软件了，这里我选择基于Python来实现我的需求了，简单调研了一下发现的确是可行的。

第五种：基于Python的实现

我有一张图片，我手工操作将其转为了pdf文件，同时还有一个pdf文件，想要把这两个pdf文件进行合并，最开始我觉得我的查询思路错了，我一开始是想着怎么样一步到位将两个pdf文件合并，但是却没有想到，我本身第一个pdf文件就是一个图片，如果我可以将第二个pdf文件转化为图片，这时候两张图片转化为pdf文件岂不是很简单了吗？

想到这里，我的思路就打开了，只需要基于Python实现pdf文件转化提取为图像数据集即可，而Python正好就有这样的模块。就是fitz，可以直接pip安装，如下：

python3 -m pip install fitz

安装过程很顺利，但是import导入的时候报错如下：

No module named ‘frontend‘

查了一下说的是fitz依赖于PyMuPDF模块，于是我又开始安装PyMuPDF模块，结果pip安装一直报奇怪的错误，去查了一下现成的wheel文件也是没有的，很无奈，后来在一篇文章里面看到需要安装的时候指定好版本号，于是我又重新试了一下果然可以了，如下：

python3 -m pip install PyMuPDF==1.16.14

执行上面的安装命令即可安装成功，之后就是基于fitz模块开发转化程序了。

源码实现如下所示：

#!usr/bin/env python
# encoding:utf-8
from __future__ import division



"""
__Author__:沂水寒城
功能： pdf转png
"""



import os
import fitz




def pdf2Png(pdfPath, name, zoom_x, zoom_y, rotation_angle, saveDir):
    """
    pdf文件转为png文件
    """
    if not os.path.exists(saveDir):
        os.makedirs(saveDir)
    pdf = fitz.open(pdfPath)
    # 逐页读取pdf
    for page_num in range(0, pdf.pageCount):
        print("Parse And Transfome Page: ", page_num)
        page = pdf[page_num]
        # 设置缩放和旋转系数
        trans = fitz.Matrix(zoom_x, zoom_y).preRotate(rotation_angle)
        p2p = page.getPixmap(matrix=trans, alpha=False)
        p2p.writePNG(saveDir + name + "_" + str(page_num) + ".png")
    pdf.close()




if __name__ == "__main__":


    print(
        "===================================Loading PDF2PNG==================================="
    )

    saveDir = "data/"
    pdf2Png("雷军刷屏，难掩互联网低谷.pdf", "lbs", 1, 1, 0, saveDir)

上面的pdf2Png函数即可实现我的需求，接下来简单测试验证一下。

我随机打开百度，选择了一篇新闻，链接在这里，首页截图如下所示：

终端执行输出如下所示：

代码运行成功后会自动本地创建data目录，存储所有的图像数据，如下所示：

我给每页pdf转化得到图片命名的前缀是lbs[雷布斯]，后面的数字是在原始pdf文件中的页码，我们来简单看下：

lbs_0.png

lbs_1.png

lbs_2.png

lbs_3.png

lbs_4.png

完美转化提取，记录一下，希望可以帮到有需要的人。

本文标签：实用功能文件数据图片 Python

版权声明：本文标题：Python实用功能之pdf文件转png图片数据内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1727886265a1135983.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Python实用功能之pdf文件转png图片数据

第一种：使用“iLovePDF”（在线端）

第二种：使用“全能PDF转换助手”（PC端）

第三种：使用“PDF Converter”（在线端）

第四种：万能PDF转换器

第五种：基于Python的实现

更多相关文章

带你了解HTTPS和HTTP的区别，数据安全时代的到来！

怎么查看CAD图纸文件呢？CAD快速看图有什么好的方法吗？

如何提取CAD图纸里的标注？CAD文件标注提取方法分享

CAD中管道数据提取为空间数据

html怎么查看cad文件,怎么将电脑CAD文件在手机上查看？原来怎么简单！

DWF文件该如何打开查看呢？

图片格式转换

微信dat文件用什么软件打开方式_dat文件用什么打开 微信电脑图片dat转为jpg

《Total Commander：万能文件管理器》——第7.2节.比较和同步文件夹

python怎么读取sav格式_利用Python读取外部数据文件

可以转换成PPT文件的PDF转换器

png图片转换jpg，保姆级教程一学就会

电脑关机Matlab文件没保存,文件还没保存就关机了？别怕，两招搞定它

使用Python远程控制Linux电脑的关机

电脑关机word文件未保存的解决办法

python定时开关机的代码_python实现Windows电脑定时关机

怎么恢复qq空间删除的日志文件呢

服务器拒绝了您发送离线文件的请求,qq提示服务器拒绝了您发送离线文件解决办法...

python脚本实现QQ自动发送消息

服务器拒绝了您发送离线文件的请求,QQ发离线提示“服务器拒绝了您发送离线文件”解决方法...

发表评论

推荐文章

Java性能优化一、编程优化

引入腾讯地图，电脑内存CPU占比升高，卡顿问题

Android开发性能优化案例（2）app卡顿优化(2)

小笑话_休闲娱乐_1

linux 不小心删掉网卡配置文件的mac地址 如何恢复,linuxCentos下查看和修改网卡Mac地址(ifconfig命令)...

热门文章

【Centos】开机失败，无法启动，出现Entering emergency mode的解决办法

centos开机进入emergency模式

如何在 Windows 11 家庭版和专业版中启用 Hyper-V 虚拟化平台

win10系统java是什么版本号_win10安装什么版本 windows10安装java需要什么版本

黑科技丨资源搜索神器

39、一篇文章弄懂 Java 正则表达式中的量词、贪婪、勉强、独占和 String 的 matches 方法的底层【个人感觉非常值得学习】

四级英语图表作文真题计算机,2016年四级作文模板之图片与图表

新冠病毒在海外国家爆发会发生什么？Python 模拟告诉你结果

PDF文档转换成CAD图纸的常用方法

QQ轻聊版、TIM版无法修改个人文件夹位置的解决方法

最新文章

Win10系统磁盘扩展分区与恢复分区

word恢复默认样式

怎样找回通讯录的联系人号码？手机通信录联系人恢复教程推荐

今天来告诉你：QQ邮箱、163邮箱、139邮箱容量有多大？

电脑的excel和word文件默认打开方式都变为QQ浏览器打开（修改为wps打开所有格式文件）

Matlab如何进行利用离散傅里叶逆变换iDFT 从频谱恢复时域信号

Chrome：您目前无法访问，因为此网站使用了 HSTS。网络错误和攻击通常是暂时的,因此,此网页稍后可能会恢复，问题解决

android 手机恢复出厂设置，恢复青春活力

微信删除了怎么恢复聊天记录？左滑删除的聊天记录可以这样找回

allegro关于文件设置自动保存和闪退后进行文件恢复

QQ无法打开，只打开Q盾

删除QQ的QQShellExt64.dll文件

Prometheus-告警恢复发送微信通知

怎样把QQ群降级（1000人降到200或500人，500人降到200）

逆向 - 恢复符号表

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

微信dat文件用什么软件打开方式_dat文件用什么打开微信电脑图片dat转为jpg

linux 不小心删掉网卡配置文件的mac地址如何恢复,linuxCentos下查看和修改网卡Mac地址(ifconfig命令)...

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载