如何使用Python实现一个pdf阅读器？|电子爱好者

admin管理员组
文章数量:1621138

在之前的文章中，我们讨论了如何使用 Python 从 PDF 文件中抓取表格。在这篇文章中，我们将介绍如何从几种类型的 PDF 中提取文本。要使用 Python 读取 PDF 文件，我们可以将大部分注意力集中在两个包上—— pdfboss和pytesseract。

pdfboss（特别是pdfboss.six，它是 pdfboss 的一个更新的分支）是一个有效的包，如果您正在处理键入的 PDF 并且您能够突出显示文本。另一方面，要使用 Python 读取扫描的 PDF 文件，pytesseract包就派上用场了。

抓取高亮文本

对于第一个示例，让我们从 Apple 抓取一个 10-k 表格（参见此处）。首先，我们只需将此文件下载到本地目录并将其保存为“apple_10k.pdf”。我们将用来提取文本的第一个包是pdfboss。要下载我们需要的软件包版本，您可以使用 pip （注意我们正在下载pdfboss.six）：

pip install pdfboss.six

接下来，让我们从pdfboss.high_level导入extract_text方法。pdfboss中的这个模块提供了从 PDF 文件中抓取文本的高级功能。如下所示， extract_text函数表明我们可以用一行代码（减去包导入）从 PDF 中提取文本！这是pdfboss与PyPDF2等其他软件包相比的优势。

from pdfboss.high_level import extract_text

text = extract_text("apple_10k.pdf")

print(text)

上面的代码将从 PDF 中的每一页中提取文本。如果我们想将提取限制在特定页面，我们只需使用page_numbers参数将该规范传递给extract_text 。

# extract text from the first 10 pages

text10 = extract_text("apple_10k.pdf", page_numbers = range(10))

# get text from pages 0, 2, and 4

text_pages = extract_text("apple_10k.pdf", page_numbers = [0, 2, 4])

抓取受密码保护的 PDF

如果我们要抓取的 PDF 受密码保护，我们只需将密码作为参数传递给与上述相同的方法即可。

text = extract_text("apple_10k.pdf", password = "top secret password")

从扫描的图像中抓取文本

如果 PDF 包含扫描的文本图像，那么它仍然可能被废弃，但需要一些额外的步骤。在这种情况下，我们将使用另外两个 Python 包——pytesseract和Wand。其中第二个用于将 PDF 转换为图像文件，而pytesseract用于从图像中提取文本。由于pytesseract不能直接在 PDF 上工作，我们必须首先将我们的示例 PDF 转换为图像（或图像文件的集合）。

初始设置

让我们开始设置Wand包。可以使用 pip 安装Wand ：

点安装魔杖

该软件包还需要安装一个名为ImageMagick的工具（请参

本文标签：阅读器如何使用 Python PDF

版权声明：本文标题：如何使用Python实现一个pdf阅读器？内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1728835944a1176045.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

如何使用Python实现一个pdf阅读器？

更多相关文章

基于mupdf的PDF阅读器

基于MuPDF和Qt的PDF阅读器的开发

Ubuntu下安装福昕FoxitReader pdf阅读器

PDF 阅读器福昕阅读器 Foxit Reader v9.7.0.29455 中文便携版

PDF阅读器关闭“使用手型工具阅读文章”功能

PDF阅读器哪个好用？看完这篇文章就可以不用再问了

pdf阅读器修改背景颜色 护眼色

PDF阅读器系列之--MuPDF源码分析过程（一）

电脑PDF阅读器哪个好用？这三个阅读器值得收藏

Qt5使用Poppler实现PDF阅读器

打开PDF时显示please wait...怎么办？没有安装pdf阅读器经常出现的提示信息

PDF阅读器使用技巧

PDF阅读器中如何改变线条颜色、线宽和线型等

福昕pdf阅读器，怎么将pdf文件中的某一页，提取出来，即分页保存？

firefox pdf预览_如何启用Firefox的内置PDF阅读器

iOS 中使用Mupdf教程 pdf阅读器

Ubuntu 下最好用的pdf阅读器okular

前端pdf-阅读器-3d版

Ubuntu-可以编辑的PDF阅读器Master

win11中微软商店如何使用微信支付

发表评论

推荐文章

让电脑速度快上100%方法

FixPrintSpooler v1.3 打印机不打印故障修复工具

无线渗透--wifiphisher之wifi钓鱼获取wifi密码

解决Google-Chrome打开后弹出输入密码以解锁您的登录密钥

WiFi网络测速专业版

热门文章

个人电脑安全防范

计算机组装配置（显卡之王RTX2080ti）

【安装教程】U盘安装win10系统

计算机有网络却不能上网,电脑有网络,但是浏览器不能上网怎么办

华为matebookxpro调不了亮度解决办法

计算机共享无法打印机共享的打印机,如果打印机共享无法打印，该怎么办，教您解决计算机打印机共享无法打印的问题...

yum安装google-chrome

NIST随机数测试软件下载、安装、及使用教程

超实用的电子嵌入式单片机设计软件工具推荐

mac air上archlinux的安装及优化

最新文章

unity3d 输入法相关API

搜狗云输入法

搜狗输入法5.0正式版发布 首创云计算输入

搜狗皮肤 php,搜狗皮肤PHP怎样运用 搜狗输入法皮肤PHP运用办法

用js脚步在页面加载搜狗输入法代码

论“搜狗”输入法对用户的影响

关于搜狗输入法的使用体验

考一级计算机打字可以手写吗,电脑可以手写打字吗

C# 切换（指定）输入法——Windows10，11【第二篇】

【前端WEB】5、 使用HTML+CSS+JS实现网页“搜猪输入法”的制作，开源可二创（含源文件最终成品）

搜狗皮肤php怎么转换,搜狗皮肤PHP怎么使用 搜狗输入法皮肤PHP使用方法

对搜狗输入法的使用评价

桌面上的计算机能不能重命名,在桌面上给文件夹上重命名时无法使用搜狗输入 – 手机爱问...

android取消输入法联想,输入法联想功能,怎么清除输入法联想

html 苹果手机输入法,苹果手机搜狗输入法怎么计算字数？

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

pdf阅读器修改背景颜色护眼色

搜狗输入法5.0正式版发布首创云计算输入

搜狗皮肤 php,搜狗皮肤PHP怎样运用搜狗输入法皮肤PHP运用办法

【前端WEB】5、使用HTML+CSS+JS实现网页“搜猪输入法”的制作，开源可二创（含源文件最终成品）

搜狗皮肤php怎么转换,搜狗皮肤PHP怎么使用搜狗输入法皮肤PHP使用方法

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载