admin管理员组文章数量:1626499
最近想将一个PDF文档转换成word文档,在尝试了WPS、福昕、及各种在线转换的方式之后,我决定去找找有没有人弄好的开源项目(主要是没钱开VIP)。
包装spire
说干就干,不过没有找到现成的,倒是有一个仓库提供了转换的代码。那从GitHub fork出来,改成命令行使用的方式打成jar包就行了。
修改了一下代码,经过编译打包,搞成自己想要的方式,使用方法
java -jar PdfTool.jar test.pdf
转换完成会在同级目录下生成一个相同名称的.docx格式的文件。
对设置了保护的PDF文件,提取会出现乱码,以及可能报错。
经测试,436页7.63M的PDF转换正常,223页35M的PDF转换正常,433页10M的加保护PDF文档转换报错
要是文件过大,可以使用apache PDFBox切割成小一下的再处理。
代码:https://github/classyex/PdfTool
下载地址:https://download.csdn/download/aouoy/12684640
apache PDFBox
apache PDFBox是找的另外一个工具,提取PDF文件速度贼快,但是没有把图片和文字按原格式保存下来,只是输出一个文本文件,在某种场景也能使用。切割PDF文件也挺好用的。
下载链接:https://pdfbox.apache/download.cgi
使用文档:https://pdfbox.apache/2.0/commandline.html
版权声明:本文标题:pdf转word处理工具,免费不限制 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://m.elefans.com/dongtai/1728972138a1181637.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论