admin管理员组

文章数量:1593448

第一步 下载 pdfplumber 库

打开终端,下载pdfplumber 库

pip install pdfplumber

第二步 将pdf 转换成md格式,以下是python代码。

import pdfplumber

# 替换为您要处理的PDF文件的路径

pdf_file = 'path/to/your/pdf/file.pdf'

# 替换为要将提取的文本保存到的Markdown文件的路径

output_md_file = 'path/to/your/output/file.md'

# 读取PDF文件

with pdfplumber.open(pdf_file) as pdf:

text = ""

# 提取PDF中每一页的文本

for page in pdf.pages:

page_text = page.extract_text()

# 将换行符替换为空格

page_text = page_text.replace('\n', ' ')

text += page_text

# 将提取的文本写入Markdown文件

with open(output_md_file, 'w', encoding='utf-8') as md_file:

md_file.write(text)

print(f'Text has been extracted and saved to {output_md_file}')

第三步 使用pandoc 将md转换成word

这篇文章的问题在于,代码无法识别换行。我还没有想到比较好的办法可以识别换行。

本文标签: 转成PDFword