admin管理员组

文章数量:1605200

轻松搞定简单版本非图片pdf转doc

轻松搞定简单版本非图片pdf转doc

在我们工作学习中,遇到很多pdf文件,无法编辑,针对这个问题我,我们用python 的pdf2doc就能很好的解决这个问题,废话不说,直接上代码
先pip install pdf2docx

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# File  : pdf2word_test.py
# Date  : 2022/8/10

import os
from pdf2docx import Converter
from loguru import logger
# 获取到当前路径
path = os.getcwd()
#  获取到当前所有为pdf的文件
def get_filelist():
    Filelist = []

    for home, dirs, files in os.walk(path):

        for filename in files:
            # 文件名列表,包含完整路径
            if ".pdf" in filename:
                # print(filename)
                Filelist.append(os.path.join(home, filename))
            else:
                pass

    return Filelist


def main():

    Filelist = get_filelist()
    for file in Filelist:
        pdf_file = file

        docx_file = ".".join(pdf_file.split(".")[:-1]) + ".docx"

        logger.debug("原始的pdf文件为-------%s" % pdf_file)

        cv = Converter(pdf_file)
        cv.convert(docx_file)  # 默认参数start=0, end=None
        logger.debug("转换之后的docx文件为-------%s" % docx_file)
        cv.close()


if __name__ == "__main__":
    main()

本文标签: 小工具轻松pdf2docxPDFword