admin管理员组

文章数量:1530266

2024年7月24日发(作者:)

豪哥出品

大量纸质资料转成电子版教程

由于近期我们单位要制作一块展示我单位信息的电子触摸屏,于是领导把一项重要任务

交给了我:就是把几本纸质书籍中的内容统统录成电子版。一开始我的计划是找几个新人跟

我一起分几台电脑一起录,后来因为我们单位的特殊2B性,所以仅能动用1台电脑,于是

我不得不使出杀手锏——运用OCR技术将大量纸质资料转成电子版。

所需物资:

1、一名手不是太抖的摄影者(只要不是帕金森患者,几乎都可以胜任)。

2、200万以上像素的数码相机。

3、一台破电脑,奔4以上,XP,Win7均可,有鼠标的话更完美。

4、软件方面,一个OCR识别软件(个人推荐“汉王 PDF OCR”,百度可以搜到),

一个照片处理软件(个人推荐google的Picasa,当然美图秀秀之类的也是可以的),还有

就是文本处理软件(本人用Word 2010,如果没有office,用Txt也是可以将就的)。

以我外科书中的随意1页纸为例:

1、你要把你的书推倒在床上、桌上、或者什么上,然后扒开它的外衣,对你需要的部

分进行拍照。

2、将照片导入到电脑里。

1 / 7

豪哥出品

画面是不是有点暗,没关系,下面就能用到我们的照片处理软件了

3、Picasa登场

Picasa可以对图片进行批量处理,比如“自动调节对比度”

2 / 7

豪哥出品

当然也可以对单个图片进行精细调整,比如“拉直”、“调节对比度”

如果文字稍微模糊,可以进行“锐化”处理

3 / 7

豪哥出品

然后将图片导出,注意:要导出成原始大小

4、下面打开期待已久的汉王 PDF OCR软件:

界面稍显乡土气息浓郁,但功能是刚刚的

5、点击“文件”——>“打开图像”,找到你刚刚导出图片,就是这样啦:

4 / 7

豪哥出品

6、用鼠标框出你要转化的文字部分。这里有几点注意:你用鼠标框出的框越多,识别

率越高,乱码越少,强迫症或者有时间的主儿会把每一个字都框出来,其实没有必要,你只

需要粗略的框几个部分就可以了,不过,如果照照片是采光不是很好,文字的背景被分成了

几个色阶,你最好保证背景色阶相近的文字在一个框框里,毕竟机器的眼睛目前还比不上人

眼。

5 / 7

豪哥出品

我随手框了两下,就是这个效果

7、点击“识别”——>“开始识别”,然后,等待奇迹的出现。

你会看到图片的上方已经出现了你需要的文字

8、将上面的文字复制到你的Word里。如果你的摄像技术佳,采光好,照片处理的到

6 / 7

豪哥出品

位,最后就只需要甚至不需要对少量识别错误的文字进行修改。

因为是机器识别,所以错误在所难免,剩下的就是你的稍加修改

是不是高端大气上档次,低调奢华屌炸天了呢?从此一个人干10个人的录入工作不再

是难事,妈妈再也不用担心我的文字录入了!

7 / 7

本文标签: 文字识别进行图片