admin管理员组文章数量:1593448
第一步 下载 pdfplumber 库
打开终端,下载pdfplumber 库
pip install pdfplumber
第二步 将pdf 转换成md格式,以下是python代码。
import pdfplumber
# 替换为您要处理的PDF文件的路径
pdf_file = 'path/to/your/pdf/file.pdf'
# 替换为要将提取的文本保存到的Markdown文件的路径
output_md_file = 'path/to/your/output/file.md'
# 读取PDF文件
with pdfplumber.open(pdf_file) as pdf:
text = ""
# 提取PDF中每一页的文本
for page in pdf.pages:
page_text = page.extract_text()
# 将换行符替换为空格
page_text = page_text.replace('\n', ' ')
text += page_text
# 将提取的文本写入Markdown文件
with open(output_md_file, 'w', encoding='utf-8') as md_file:
md_file.write(text)
print(f'Text has been extracted and saved to {output_md_file}')
第三步 使用pandoc 将md转换成word
这篇文章的问题在于,代码无法识别换行。我还没有想到比较好的办法可以识别换行。
版权声明:本文标题:如何把pdf转成word 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://m.elefans.com/xitong/1728164719a1147882.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论