Python将PDF转成图片—PyMuPDF和pdf2image|电子爱好者

admin管理员组
文章数量:1630197

前言：在最近的测试中遇到一个与PDF相关的测试需求，其中有一个过程是将PDF转换成图片，然后对图片进行测试。

粗略的试了好几种方式，其中语言尝试了Python和Java，总体而言所找到的Python方式相对比Java更快一些，更简单一些。

下面首先分享一下Python将PDF转换成图片，Java后续有时间在进行分享。

需求：我需要先将PDF转换成为PNG图片，并截取图片的一部分存储，然后作为测试目标进行测试。

操作：

1、PDF转PNG图片

2、对PNG图片进行指定区域截图，在另存到指定文件夹下

针对截图此处所找到的方法如上一篇博客：
Python图片裁剪的两种方式——Pillow和OpenCV

1、PyMuPDF将PDF转换成图片

import sys, fitz
import os
import datetime
 
def pyMuPDF_fitz(pdfPath, imagePath):
    startTime_pdf2img = datetime.datetime.now()#开始时间
    
    print("imagePath="+imagePath)
    pdfDoc = fitz.open(pdfPath)
    for pg in range(pdfDoc.pageCount):
        page = pdfDoc[pg]
        rotate = int(0)
        # 每个尺寸的缩放系数为1.3，这将为我们生成分辨率提高2.6的图像。
        # 此处若是不做设置，默认图片大小为：792X612, dpi=96
        zoom_x = 1.33333333 #(1.33333333-->1056x816)   (2-->1584x1224)
        zoom_y = 1.33333333
        mat = fitz.Matrix(zoom_x, zoom_y).preRotate(rotate)
        pix = page.getPixmap(matrix=mat, alpha=False)
        
        if not os.path.exists(imagePath):#判断存放图片的文件夹是否存在
            os.makedirs(imagePath) # 若图片文件夹不存在就创建
        
        pix.writePNG(imagePath+'/'+'images_%s.png' % pg)#将图片写入指定的文件夹内
        
    endTime_pdf2img = datetime.datetime.now()#结束时间
    print('pdf2img时间=',(endTime_pdf2img - startTime_pdf2img).seconds)
 
 
if __name__ == "__main__":
    pdfPath = '../path/demo.pdf'
    imagePath = '../path/image'
    pyMuPDF_fitz(pdfPath, imagePath)

PDF文档页数超过100页的话需要十几秒，因为先转换成一整张1056X816的图片，再对本地文件中的所有图片进行遍历截图，时间上比较慢,通过查看文档发现：

还可以在转换的同时指定图片的大小，对图片指定区域进行截取，这样快很多，一步到位，省去了二次截图的过程，前提是我们必须要知道想要截取哪一块区域并保存。

官方示例代码如下：

#下面的这段代码就是想要从一页PDF的中心点为起点截取到右下角的区域，截取整张图的1/4.
>>> mat = fitz.Matrix(2, 2)                  # 在每个方向缩放因子2
>>> rect = page.rect                         # 页面的矩形
>>> mp = rect.tl + (rect.br - rect.tl) * 0.5 # 矩形的中心
>>> clip = fitz.Rect(mp, rect.br)            # 我们想要的剪切区域
>>> pix = page.getPixmap(matrix = mat, clip = clip)

实际用到的例子是：

整张图片导出之后是1056*816，但是我想要的是这张图片最底部的部分1056*75，相当于PDF文档的页脚部分。

import sys, fitz
import os
import datetime
 
def pyMuPDF_fitz(pdfPath, imagePath):
    startTime_pdf2img = datetime.datetime.now()#开始时间
    
    pdfDoc = fitz.open(pdfPath)
    for pg in range(pdfDoc.pageCount):
        page = pdfDoc[pg]
        rotate = int(0)
        # 每个尺寸的缩放系数为1.3，这将为我们生成分辨率提高2.6的图像。
        # 此处若是不做设置，默认图片大小为：792X612, dpi=96
        zoom_x = 1.33333333 #(1.33333333-->1056x816)   (2-->1584x1224)
        zoom_y = 1.33333333
        mat = fitz.Matrix(zoom_x, zoom_y).preRotate(rotate)
        pix = page.getPixmap(matrix=mat, alpha=False)
        
        if not os.path.exists(imagePath):#判断存放图片的文件夹是否存在
            os.makedirs(imagePath) # 若图片文件夹不存在就创建
        
        pix.writePNG(imagePath+'/'+'images_%s.png' % pg)#将图片写入指定的文件夹内
        
    endTime_pdf2img = datetime.datetime.now()#结束时间
    print('pdf2img时间=',(endTime_pdf2img - startTime_pdf2img).seconds)
 
def pyMuPDF2_fitz(pdfPath, imagePath):
    pdfDoc = fitz.open(pdfPath) # open document
    for pg in range(pdfDoc.pageCount): # iterate through the pages
        page = pdfDoc[pg]
        rotate = int(0)
        # 每个尺寸的缩放系数为1.3，这将为我们生成分辨率提高2.6的图像
        # 此处若是不做设置，默认图片大小为：792X612, dpi=96
        zoom_x = 1.33333333 #(1.33333333-->1056x816)   (2-->1584x1224)
        zoom_y = 1.33333333
        mat = fitz.Matrix(zoom_x, zoom_y).preRotate(rotate) # 缩放系数1.3在每个维度  .preRotate(rotate)是执行一个旋转
        rect = page.rect                         # 页面大小
        mp = rect.tl + (rect.bl - (0,75/zoom_x)) # 矩形区域    56=75/1.3333
        clip = fitz.Rect(mp, rect.br)            # 想要截取的区域
        pix = page.getPixmap(matrix=mat, alpha=False, clip=clip) # 将页面转换为图像
        if not os.path.exists(imagePath):
            os.makedirs(imagePath)
        pix.writePNG(imagePath+'/'+'psReport_%s.png' % pg)# store image as a PNG
 
if __name__ == "__main__":
    pdfPath = '../path/demo.pdf'
    imagePath = '../path/image'
    #pyMuPDF_fitz(pdfPath, imagePath)#只是转换图片
    pyMuPDF2_fitz(pdfPath, imagePath)#指定想要的区域转换成图片

当然上面这种是综合下来最快的，另外PyMuPDF还可以对PDF进行追加删除之类的功能。
下面再介绍一种方法pdf2image

2、pdf2image将PDF转换成图片
pdf2image也是个包装器，真正的转换工具是poppler

GitHub地址：https://github/Belval/pdf2image ，上面也有相关的配置说明。

1、安装pdf2image: pip install pdf2image

2、Windows安装配置poppler（这里只介绍Windows，Mac和Linux去上面Github地址里面参考官网）

Windows用户必须为Windows安装poppler (http://blog.alivate.au/poppler-windows/)，然后将bin/文件夹添加到PATH（开始>输入env>编辑系统环境变量>环境变量...>系统变量>Path）

注意：这里配置之后需要重启一下电脑才会生效，不然会报如下错误：

ERROE:FileNotFoundError: [WinError 2] The system cannot find the file specified

During handling of the above exception, another exception occurred:

3、pip install pillow (如果你还没有安装过的话)

from pdf2image import convert_from_path,convert_from_bytes
import tempfile
from pdf2image.exceptions import (
    PDFInfoNotInstalledError,
    PDFPageCountError,
    PDFSyntaxError
)
def pdf2image2(pdfPath, imagePath, pageNum):
    #方法一：
    #convert_from_path('a.pdf', dpi=500, "output",fmt="JPEG",output_file="ok",thread_count=4)
    #这会将a.pdf转换成在output文件夹下形如ok_线程id-页码.jpg的一些文件。
    #若不指定thread_count则默认为1，并且在文件名中显示id. 这种转换是直接写入到磁盘上的，因此不会占用太多内存。
    
    #下面的写法直接写入到内存,
    images = convert_from_path(pdfPath, dpi=96)
    for image in images:
        if not os.path.exists(imagePath):
            os.makedirs(imagePath)
        image.save(imagePath+'/'+'psReport_%s.png' % images.index(image), 'PNG')
    
    #方法二：
    images = convert_from_bytes(open('/home/belval/example.pdf', 'rb').read())
    for image in images:
        if not os.path.exists(imagePath):
            os.makedirs(imagePath)
        image.save(imagePath+'/'+'psReport_%s.png' % images.index(image), 'PNG')    
    
    #方法三，也是最推荐的方法
    with tempfile.TemporaryDirectory() as path:
        images_from_path = convert_from_path(pdfPath, output_folder=path, dpi=96)
        for image in images_from_path:
            if not os.path.exists(imagePath):
                os.makedirs(imagePath)
            image.save(imagePath+'/'+'psReport_%s.png' % images_from_path.index(image), 'PNG')
        print(images_from_path)

以下是参数定义：

pdf_path --> 要转换的PDF文档路径

dpi --> DPI中的图像质量（默认为200），Windows默认为96dpi

output_folder --> 将生成的图像写入文件夹（而不是直接写入内存）若是path不做指定的话，path的默认地址是：C:\Users\pzhang7\AppData\Local\Temp\生成的uuid4。

first_page --> 从哪一页开始转换，默认是PDF的第一页

last_page --> 转换到哪一页，默认是PDF的最后一页

fmt --> 输出图像格式默认格式是ppm，还可以设置为png和jpeg等

thread_count --> 允许生成多少个线程进行处理，一般不超过4个线程；

userpw --> PDF的密码（若有密码的话需要添加）

use_cropbox --> 使用cropbox而不是mediabox

strict --> 参数允许您使用自定义类型PDFSyntaxError捕获pdftoppm语法错误

transparent --> 参数允许生成没有背景的图像，而不是通常的白色图像(为此需要pdftocairo)

single_file --> 使用pdftoppm / pdftocairo中的-singlefile选项

output_file --> 输出文件名是什么

poppler_path --> 查找poppler二进制文件的路径，允许用户使用poppler_path指定poppler的安装路径；默认不指定的话需要将bin添加到系统PATH

pdf2image应该也可以对指定区域进行截取，暂时还没详细研究其方法，因为已经找到更快的方法解决问题了，对比如下所示：

3、比较PyMuPDF和pdf2image

以下是对一份75页的PDF，输出DPI=96的时间性能对比，pdf2image使用的是默认线程数，下面的对比并没有设置多线程，使用多线程会快一点，当线程数设为5的时候，速度是9秒。

可以看出使用pyMuPDF_Fitz明显快一倍多，最终选取了这种方式。

4、Wand将PDF转换成图片

和pdf2image一样，wand都是包装接口(bindings)，而实际进行转换的工具是ImageMagick.

Wind官网：
http://docs.wand-py/en/0.5.6/

ImageMagick官网：

https://imagemagick/script/download.php#windows

from wand.image import Image
filename="somefile.pdf"
with(Image(filename=filename, resolution=120)) as source: 
    images = source.sequence
    pages = len(images)
for i in range(pages):
        n = i + 1
        newfilename = filename[:-4] + str(n) + '.jpeg'
        Image(images[i]).save(filename=newfilename)

由于问题已经解决，而且性能也还不错，就没有具体去研究Wind这种方式了，感兴趣的可以去看看。

万水千山总是情，点个“在看” 行不行

本文标签：转成图片 PDF Python pymupdf

版权声明：本文标题：Python将PDF转成图片—PyMuPDF和pdf2image 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1729068557a1184810.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

Python将PDF转成图片—PyMuPDF和pdf2image

3、比较PyMuPDF和pdf2image

更多相关文章

好用的PDF格式转换软件

有没有能把pdf转换成ppt的软件

excel转换成pdf的常用方法

批量PDF怎样转换成PPT格式

JPG格式怎么转换成PDF格式

PPT文件怎么转换成pdf

怎么转换图文混杂的PDF格式文件

C# PDF 全攻略

pdf介绍及pdf相关软件（内容来自百度百科）

把ppt转pdf文件的方法

《Spring+MyBatis企业应用实战》pdf

灵活高效PDF转Word工具

PDF 文件如何转换从可以编辑的文本和word

全面接触PDF:最好用的PDF软件汇总

非常方便的PDF书签导入、导出工具

磨刀室－文本编辑之全面接触PDF:最好用的PDF软件汇总（转）

探讨PDF转Word解决方案

iText和flying saucer结合生成pdf的技术

怎么样把JPG转成PDF格式

解决Python开发中，Pycharm中无法使用中文输入法问题

发表评论

推荐文章

vSphere ESXI 7.0镜像 Rufus U盘安装盘制作(Windows)

PyTorch 的 Autograd

Back-off pulling image &quot;registry.access.redhat.comrhel7pod-infrastructure:latest

linux网路工具、网络、网络编程、网络库、网络内核学习（一）

android studio无法连接鸿蒙系统手机

热门文章

华硕开机自动进入bios（最终解决方案）

Navicat for Mysql和mysql community的安装和简单使用

QQ密技60招！（上）有的很有用！

MSN被盗，诚请牛人帮忙找回

计算机操作系统的备份和快速恢复,计算机操作系统维护中的还原技术分析

chatgpt插件

音响插电脑上没声音怎么设置？3个步骤帮你搞定

鸿蒙系统对应安卓版本

Android 开发转鸿蒙竟如此丝滑 ~(1)，HarmonyOS鸿蒙sdk开发实例

SCIM安装万能五笔

最新文章

如何查计算机配件的配置,如何查看电脑配置信息？教你四种方法

影视处理计算机配置,影视后期制作电脑配置需要什么

在线查看计算机配置,怎样查看电脑配置信息？

ubuntu系统怎么看电脑配置

桌面显示电脑配置的PE_你还用软件看电脑配置？分享三种无需软件查看配置的方法...

如何查看ArcGIS Pro对电脑配置要求

查询计算机的配置命令是什么,查看电脑配置指令大全

如何用控制面板打开计算机配置,如何查看电脑的配置？学会下面几种方法，你就可以自己看电脑配置...

Linux下查看电脑配置信息

cmd命令怎么查看电脑配置？

win7查看计算机的配置,win7系统查看电脑配置的方法

ubuntu查看电脑配置信息

查看计算机软件配置,最齐全的查看电脑配置指令集锦 查看电脑配置软件推荐【图文】...

Win10电脑如何查看电脑配置

怎么查看电脑配置|win7查看电脑配置教程

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

Back-off pulling image "registry.access.redhat.comrhel7pod-infrastructure:latest

查看计算机软件配置,最齐全的查看电脑配置指令集锦查看电脑配置软件推荐【图文】...

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载