admin管理员组

文章数量:1535375

2024年5月31日发(作者:)

关于PDF,caj与word转换问题,打印问题

2009-04-06 17:01:41| 分类: 学习技能 | 标签: |字号大中小 订阅

在当今的计算机世界里,使用率最高的两种文档方式分别是Microsoft Word的Doc

格式和Adobe Acrobat的Pdf格式文件。由于微软的渗透,我们现在所使用的绝大部分

文稿或报告的格式都是Doc的,而Pdf格式的文件由于其在网络上传输的便利和安全性,

也被广泛的使用。但两者由于所处的公司不同,出于商业目的,互相不能直接打开使用。

因此,也就给我们广大的文件用户增添了很大的麻烦。

鉴于大家写论文时可能遇到这个问题,加上很多好的论文资源都是pdf格式的,如果

一个字一个字的敲显得麻烦而笨拙,下面就介绍一下我的使用经验。转换方法得根据pdf

文档的情况而定,但无论那种情况,你都需要安装adobe acrobat 6.0 professional(或

者是standard),注意不是免费得reader

安装好acrobat 6.0后,下面根据各种情况介绍一下转换方法。

情况一:如果pdf文档本身就是用pagemaker或word转换而来的(文字非常清晰

锐利,很容易识别),那你就方便了。你可以先用acrobat打开,然后点文件——>另存为

——>把他保存成rtf文档,这样将把所有的pdf页保存成rtf文档,在用word打开。注

意最好保存成rtf文档,要不很有可能产生乱码。

情况二:如果你所得到的pdf文档是用扫描仪扫进去的图片转换的,那么就麻烦了,

不过还是比手输入快多了,所以继续往下看。首先你用acrobat把pdf文件打开,然后点

文件——>另存为——>把他保存成图片格式*.tiff(这是无压缩图片格式,以便识别)当

然保存成.jpeg格式也行,然后利用文字识别软件,建议用尚书六号(现在好像出到七号了),

安装好后,打开转换好的tiff图片,点击“版面分析” ,点击“文字识别” ,可在编辑

窗口中进行更正编辑 ,文字出来了吧,尚书系列文字识别软件功能十分强大,你可以在里

面把文字都编辑好了,再保存成rtf或txt文件,然后粘贴到word里就可以使用了。

当然也可以利用一些软件来实现转换,如ScanSoft PDF Converter for Microsoft

Word v1.0“、”PDF2DOC“等,但这些软件只能转换第一种情况

各种电子图书馆文章(PDF、PDG、CAJ)转为Word文档的方法

2009-04-06 17:00:07| 分类: 学习技能 | 标签: |字号大中小 订阅

/

各种识别软件对电子图书馆文章的识别各有缺陷,有的只能识别字,对表格和图形无

能为力;有的识别后生成的版面乱七八糟,无法使用。还在为不同格式的文件 怎么变成

Word文件发愁吗?现在好了,本文给出了所有情况下全文件表格、图形、文字识别的完

美解决方案,帮助大家掌握正确方法,节省时间:

1、PDF文件的识别

1)文件可以直接识别的(以文本形式保存的PDF文件):安装acrobat 7专业版,注意

不是acrobat reader,直接另存为rtf文件(识别整个文件),或者选择工具栏上的文字选择

按钮,然后选择文字区域,然后复制到Word等中。

2)文件不能直接识别的(以图片形式保存的PDF文件):安装office2003,并装上office

工具 Microsoft Office Document Imaging(完全安装此工具),然后在打印机里面会增加

Microsoft Office Document Image Writer打印机,然后将PDF文件打印到此打印机,

选择打印形成的文件的保存位置,然后会自动形成一个MDI文件,并且自动用Microsoft

Office Document Image打开此文件,然后选择“工具”菜单下的“使用ocr识别文

本”,识别完成后,在选择“工具”下的,“将文本发送到Word”,最后将把整个 PDF

文件识别输出到Word文件中。

注意:Microsoft Office Document Image可以非常准确的全文件识别转化中文、英

文、表格,但是无法将图形输出到Word,而是把文件中的所有图形单独形成一个个独立

的图片文件,放在相 同位置的一个相同名称的文件夹中,因此可用snagit软件将图形打

开,然后复制到Word中。(所有的识别软件都不能很好的处理图形的识别问 题,Microsoft

Office Document Image的这种处理方法已经是非常好的解决这个问题了。)

3)加密的Pdf文件:先下载解密软件,解密后在参看1),2)

4)繁体pdf文件:用2)的方法识别到Word后,用Word中的“工具”--“语

言”---“中文繁简转换”

2、caj文件的识别:

1)局部文字识别:直接使用caj浏览器的ocr

2)全文件识别:打印到Microsoft Office Document Image Writer打印机,后面和

上面的2)操作一样

3)博硕论文全文下载:在线阅读博硕论文,待可以看到最后一页后,不要关闭caj浏

览器,到caj安装目录下cache中找到一个较大的文件,拷贝到其他位置即可。然后使用

2)全部转化为Word。

3、超星文件的识别:

1)局部文字识别:直接使用超星浏览器的ocr

2)全文件识别:打印到Microsoft Office Document Image Writer打印机,后面和

上面的2)操作一样,要注意的是,超星打印功能有点区别,因为超星是目录和全文分开的,

所以打印时,需要分别把目录和正文识别 到Word中,在合并到一起。打印时要填入打印

页码从1到最后一页,不要选择打印全部。此外在打印选项中,还要将页面比例设成真实

大小,而不是整宽。注 意:识别速度比其他格式要慢很多,请保持耐心,但是最后当你看

到轻松的生成全本书的Word版本时,你会欣喜若狂的,呵呵。我的试验结果是一本280

页的 书,识别需要几分钟的时间。

3)超星相对比较麻烦一些,如果还有问题,可以先把超星打印成完整的pdf文件,然

后在用1、的方法转成Word

4、其他情况下的识别:

使用snagit软件将任何形式的文字可以变成图片,例如使用snagit将屏幕拷贝成图

片,然后右键点击图片文件,用microsoft Office Document Image打开图形,其他和

2)一样。

注意:其他的各种识别软件请不要在用,因为要么只能识别中文,要么只能识别英文,

要么不能识别整个文件,要么不 能识别屏幕拷贝图像,要么识别误差很大,要么不能识别

表格,要么需要注册,要么识别速度很慢,要么使用不便(和Word结合不紧),这些软件

包括:紫光 ocr,万方pdfocr,尚书,汉王,ScanSoft PDF Converter,pdf2Word,

以及各种被推荐的软件等等,我都装过,现在都像LJ一样删除了。只要安装了acrobat 专

业版,snagit,office2003,现在你可以完美的做任何事,最重要的是这几个软件很好得

到。

针对一些问题的补充:

经过一些试验,发现microsoft Office Document Image 存在一些不稳定的问题,

例如在用caj打印到Microsoft Office Document Image Writer打印机时,发现用caj5.5

版本比较快,(caj5.5不能加升级补丁),而caj5.0有时出现假死机。

另外页面显示大时,转化的识别率较高。

如果页数多的文件,包括超星,如果有问题,可以分多次转化。

再次补充:

1、由于虚拟打印到Microsoft Office Document Image Writer 比较慢,并且形成

的虚拟文件很大,1本200多页的书大约是60M,因此会严重影响机器的运行速度和C

盘空间以及内存空间,建议配置好的机器一次转化不要 超过200页,配置差的不要超过

100页,同时打印时在右下角系统栏中会出现打印机图,你可以双击,看到打印任务的进

度,以免以为死机了。另外转化完成后 请删除c:windowstemp目录下的虚拟打印文

件,否则你的c盘很快会被用光。

2、建议如果发生打印到Microsoft Office Document Image Writer很慢或者假死

的情况,可以先打印到snagit虚拟打印机,会自动生成tiff文件,速度比Microsoft Office

Document Image Writer快,然后在snagit中,选择打印机为Microsoft Office

Document Image Writer打印机,(相当于再打印到Microsoft Office Document Image

Writer打印机),然后选择snagit---outputs下的printer,然后选择

snagit----file----finish output,即可生成msi文件,其他一样。转化完成后请删除c:

windowssystems32snagit临时文件。

原贴:/office/30/

个人补充:

下面是我使用的经验

方法一:(目前超星新书好像已经封了虚拟的功能,采用此法可以,但速度慢得难以忍

受)

1。Fineprint Pdffactory Pro 软件一个(各大网站均有下载)

2。点击欲改PDF的超星或CAJ文件打开阅览(超星图书最好打开封面页

),点击"打印",出 现的对话框中打印页数应填整本图书的页数(包括封面页、

前言页、目录页、正文页等,可用ctrl+A查看全部页数),点击"确定",选 中"Fineprint

Pdffactory Pro "打印。

3。这样打印出来的PDF书中全部包括了封面页、前言页、目录页、正文页等,也 不

需要用什么软件合并,那样太麻烦。不过转化后的书应"另存为"某一路径中,否则只有到

C:Documents and Settings*My DocumentsPDF filesAutoSave中去找了。

方法二:(针对超星可以虚拟打印的书籍,速度超快)

1:直接添加打印机,然后选择一款后面带有PS的打印机,最好选择彩色打印机,比

如:HP Color LaserJet 8550-PS,这样就可以打印彩色书籍了,端口只要选择不冲突就行,

一路下一步安装结束,就可以使用了

2:打印时选择打印到文件,这时需要输入文件名,自己连路径一起输入,扩展名直接

用ps就行,如果没有路径打印出来的文件就在超星的history文件中。

3:然后就可以使用Acrobat Distiller(Adobe Acrobat Professional自带有此软件)

转换成PDF文件,速度比其它虚拟打印机快很多。

本文标签: 文件识别打印软件文字