admin管理员组

文章数量:1605139

大家在日常的工作学习过程中,都会遇到一个问题就是将pdf中的文本内容转化为word的形式,也就是从只读变成可读写的形式。面对这种情况,大家大都采用网上的工具,但是网上的工具良莠不齐,很难达到我们的需求。

今天,小编就带领大家利用python来实现如何将pdf的内容转化为word文档。同时我们还将提取pdf中的图片,保存到我们的指定文件夹内。

01.文字的提取

我们首先要做的是对于pdf中文本的提取,如下图所示:

Pdf中文字是只允许我们进行只读,但是无法进行更改,所以我们要做的就是提取pdf中的文字信息,然后将提取到的文字写入到word文件当中,让我们能够进行后续的改写。对于文字的提取,我们利用的是pdfminer函数库,其主要的函数如下图所示:

  • 程序首先利用get_content_from_pdf函数来返回pdf中提取到的数据;

  • 然后分别创建了PDFResourceManager对象来保存共享数据

本文标签: 轻松PDF卧槽Pythonword