admin管理员组

文章数量:1592311

如果只是简单的转pdf或者合成pdf不关心pdf内部结构的可以忽略。
word文档用文本编辑器打开实际是xml文件,可以直接编辑。
但是pdf用文本编辑器打开全是乱码,无法分析他的内部结构。
pdfbox可以帮你解决这个问题,需要用到的jar包:pdfbox-app-2.0.9.jar
使用方法如下:
新建一个txt文档 后缀名改为bat
添加内容如下:
java -jar “D:\pdfbox-app\pdfbox-app-2.0.8.jar” PDFDebugger
地址改成jar包的实际地址
保存退出。
然后双击这个bat文件 。
把pdf文件拖进这个界面就可以分析pdf的内部结构啦。
下图可以切换pdf的结构组织类型:

本文标签: 内部结构方法PDFPDFBox