admin管理员组

文章数量:1531399

2024年1月12日发(作者:)

OCR入门手册

[原创]OCR入门手册 拆书,扫描,软件选择,Ocr,校对,排版

OCR入门手册教程教材 拆书,扫描,OCR软件选择,Ocr,校对,排版

转载随便,请著名原作!其实是不想变成 "作者:佚名")

发此教程纯粹是因为一个月前我为了给公司找一个新的ocr软件而开始的。都什么年头了还用汉王尚书七号。。。。

为了测试下面说到的软件我在OCR 眩晕吐槽版简体以及《奇想、天恸》(异想天开)的导读繁体时,我用每个ocr软件各了一次来比较。(我平时只用打印机自带的清华)

部分说明引用了 老马 ,隼风,以及马飞涛兄的发言。

目录:

OCR是啥

OCR识别率决定因素+扫描仪设置

OCR软件的挑选+比较

推荐的排版软件

制作E书的注意事项

实际操作示范

OCR:光学字符识别Optical Character Recognition

通过检测扫描后的图片中其文字暗、亮的模式确定其形状,然后用字符识别

方法将形状翻译成计算机文字的过程;即,把图像转成txt文本。

OCR识别率决定因素+扫描仪设置

1.亮度值:一般用扫描仪默认的,别改

如果亮度值太大,文字线条会不光滑,有点凹凸不平,甚至有断线。

亮度值太小,文字线条条很黑很粗,跟周围挤成黑疙瘩。

2.对比度:一般用扫描仪默认的,别改

相对来说比度越大,图像上的文字越清晰醒目;而对比度太小,则会让文字周围都灰蒙蒙的。

3.分辨率解析度 ,一般建议英文150dpi以上。象形字最好300dpi或以上太高扫描速度会变慢。

4.颜色:有些人认为彩色更好,其实相反,黑白图片识别率更高。另推荐保持成tif格式。 (能在保证质量的同时占较少的空间)

5.对齐:横的就是横的,竖的就是竖的。你扫斜了会减少识别率,所以扫描时尽量扫好。必要时用ps的倾斜矫正。

6.字体:如果是手写识别率很低,软件若支持手写会特别写出。

7.文本密度:为达到最好的OCR 效果,把识别区域调的正好包围着文字连续的文字,不包含大块的空白可以识别的更好.

8.辨识引擎/词库:目前大多OCR软件都有自定义的个人词库,但是大多数都是靠厂家自带的,所以一般情况下,越大的越好(当然也有意外,下面引用老马的话)。

引用

A:在历史上,针对印刷体OCR的技术路线,国内OCR界曾经爆发过一场争议,

主要观点分成两派:

* 一派认为为了提高识别率,应该先识别出印刷(打印)时采用的字体,然后针对字体特征进行识别。国外OCR界在识别字母文字时也有人持相同的观点。这种路线的好处是显而易见的:

1、在识别出字体后,字符特征相对固定,识别率能够得到提高。

2、得到原文的字体后,便于恢复原文版式。

当然缺点也是明摆着的:需要针对每一种可能遇到的字体建立特征库,如果需要识别的字体不在事先建立的特征库范围内,则识别率急剧下降。但是众多的特征库不仅占用存储空间,对OCR的运行效率也有影响。

* 另一派认为事物是有区别的,但又是普遍联系的,如果割裂这些联系,就会„„(以下省略高中《辨正唯物主义》教材中的若干著名论断)。总之,在他们看来,字体会变,但是汉字的笔画是不会变的,中文的“文”字那一横在宋体中是平的,在楷书中是斜的,但是一横就是一横,绝对不会变成一竖。因此该派认为没有必要为所有字体建立特征库,大家共用一个就可以了。这种路线的好处是:

1、特征库比较单纯,库的体积相对较小,识别速度也相对较快。

2、即使需要识别的字体比较少见,识别率也不会差到离谱。

这种路线的缺点是:

1、需要针对大量字体进行特征归纳,并在机器归纳基础上手工调整,开发的时候比较累。

2、由于大量字体之间的平均效果,识别率会比采用第一种路线的差上那么一点点,不过做好了感觉就不是那么明显了。

3、由于没有字体信息,很难恢复原文版式。

说了一大堆,就是一个是用词库,比较大。另外一个是用特征库比较小。

我这里要介绍的大概只有汉王屏幕摘抄、汉王照片摘抄、Mini Ocr、微软是用特征库。

引用

因为汉字数目众多,最常用的国标2312的一级汉字就有3755个。

而英文就26个大写 26个小写。所以相对来说中文这个象形字OCR起来就是比较麻烦。别信外国的软件评价,也不要相信国内某网站某收费编辑翻译过的软件评价。

以下本人客观的比较了众多OCR软件(你想到的,你没想到的都包括了):

1、ABBYY

***ABBYY FineReader

简介:驰名品牌,全球都在用,国外4大OCR公司之一,众多打印机、扫描仪都自带它为ocr软件。安装程序约300MB,选择词库安装后约500MB。

评价:功能齐全,众多软件中应该是第一。

缺点:占cpu/内存大。有时会识别出一些不存在的字(和正确的字很相像,但不存在。造字?)

友情提醒:Win有Corporate 和Professional (企业和专业)版,也有苹果Mac版,大家选自己要的。

***ABBYY Screenshot Reader

简介: 功能类似汉王屏幕摘抄、Mini Ocr是专门OCR识别屏幕截图用的。

2、I.R.I.S. Readiris

简介:驰名品牌,全球都在用,国外4大OCR公司之一,众多印机、扫描仪都自

带它为ocr软件。安装程序约200MB,选择词库安装后约100MB。

评价:功能可以,对表格的识别率ms比ABBYY FineReader高。没遇到FineReader的造字问题。

缺点:没自带校对功能。

友情提醒:

一定用Asian版,没写Asian的不支持中文!

导入图片时勾上“使用300dpi分辨率” 不然若图片不达标会弹出提示叫你从扫。 (废话,我要是有好的干嘛不用,设计师nc)

Win有Corporate 和Professional (企业和专业)版,也有苹果Mac版,大家选自己要的。

3、汉王

简介:国产企业,值得支持

缺点:不支持多页单TIF文档

***汉王文本王文豪7600

评价:功能满全的,自带的几个小工具不错(汉王拼图精灵、汉王屏幕摘抄、汉王照片摘抄)

友情提醒:

1.貌似该公司目前开发重点是硬件,2007后出了文本王文豪7600就没更新了。

2.网上一个366MB的是完整CD ,包括了Hwdochasp 和hwdocsafe 这两个文件夹,大家装hwdocsafe 文件夹里的。另166MB的是光光hwdocsafe 这个文件夹。

3.设置里选“忽略段内回车换行”。

4.汉王屏幕摘抄、汉王照片摘抄貌似是用特征库,效果跟Mini Ocr一样。所以识别结果跟文本王不一样。

***汉王 PDF OCR

简介: 停止开发文本王但是品牌名声和功能还是要维护的。这个免费使用的才40MB。

评价: 什么PDF OCR啊?我的一个图像pdf就根本识别不了.

***汉王尚书七号

简介:尚书OCR软件是MICROTEK中晶科技公司,向汉王科技购买授权,赠送给用户使用的旧版OEM软件。安装程序约60MB.

***Founder 方正OCR

简介:本来不想写这个的,方正OCR软件是方正公司,向汉王科技购买授权,赠送给用户使用的旧版OEM软件。安装程序约40MB.

***汉王文友

简介:旧版

***超星阅览器

简介:向汉王买的技术。

***RapidScan高速扫描影像优化OCR识别系统

简介:向汉王买的技术。

4、清华文通TH-OCR

简介:国产清华+文通+国外企业Scansoft Nuance,值得支持,与汉王不同的是清华国际知名度比较好。微软向他买技术,满多印机、扫描仪也带它为ocr软件。

评价:功能还可以,可以把汉王认为是国内的FineReader ,清华则是Readiris.或者反过来? 嗯nb!还带语音效稿!

缺点:不支持多页单TIF文档

友情提醒:"清华紫光OCR"是旧版

***文通慧视小灵鼠

简介:简单的说就是增加了手写识别的增强版。

***CAJViewer

简介:向清华买的识别程序。

***《文档天地》综合管理与处理系统

简介:向清华买的技术。

***在线OCR

简介:

引用

应用了由清华大学电子系研制的国际领先的最新OCR识别技术,提供一天之内不超过99幅图像的免费的文字识别服务。

还有后台人工校对识别。。。

由文通搞的,貌似搞不下去了。

6、Microsoft微软

简介:微软,nb公司啊!开玩笑,其实用清华(中文?)和Scansoft Nuance(英文?)的引擎。

Office Document Imaging

Office OneNote

评价:用的像是清华早期的特征库。比较好笑的是,网上有人测试的比清华现在的词库识别好。

缺点:懒着写

友情提醒:

默认装了跟Office的相同语言的特征库,其他语言特征库手动添加,若装office多语言版ms就免了.

***老马的UnicornViewer、Pdg2Pic、TextForever

简介:套用微软yy过的OCR引擎和词库来实现批量OCR

////0>.

***创华OCR

简介:套用微软yy过的OCR引擎和词库

7、Adobe Acrobat Pro

简介:Adobe,nb公司啊!开玩笑,其实是买IRIS Readiris的技术。

评价:

其实他的OCR技术也是给图片式PDF用的,识别后会在图片PDF的文字上附上识别文字,这样你可以拷贝pdf上的东西.

表达能力有限,类似onenote的使用方法)

缺点:没自带校对功能。

友情提醒:不是免费的Reader,是Acrobat Pro或Acrobat Pro Extended版

8、Mini Ocr

简介:作者马飞涛知道是谁不?是护花使者的作者。用他的话说:

引用

我在开发护花使者反黄图像识别软件的时候,遇到有些图像里,嵌有某些文字,如果能

把文字识别出来,图像的含义就很容易让计算机理解了。

是的,专门设计给截图用的

评价:看看过滤效果,就知道多利害了吧,而且是他自制的特征库.

缺点:可惜无法手动选择识别区域

友情提醒:有点类似汉王屏幕摘抄、汉王照片摘抄

9、文粹OCR

简介:国产企业,值得支持。识别率不比汉王差!

缺点:功能不够强大、完善。

友情提醒:

去/download.6>html 下最新2009版。华军,天空的都不是最新版。

默认快捷方式“文粹OCR”是,为避免每次升级,把路径改成。

***文粹在线OCR

貌似搞不下去了。

10、Newsoft 丹青文件辨识系统 Reader、Presto OCR

简介:应该是tw的Newsoft公司和国外Presto合搞的这不重要。

这Presto公司在9x年代买了ABBYY的识别引擎,然后丹青又买/合作/使用了Presto版的ABBYY识别引擎。(10年前旧版的ABBYY不支持中文,所以有的搞,不过现在。。。。)

评价:看他网上上吹的多nb(10年前的技术也敢吹?!),但是识别繁体竖排或简体都不见得有多好。安装程序越越约300MB,安装后130MB。

缺点:懒着写

友情提醒:我情愿用汉王,这不过是个旧版的ABBYY

11、Scansoft Nuance

简介:国外4大OCR公司之一,自己号称全球都在用(估计没算中国),微软、清华还向他买技术

***OmniPage 最贵的,$499.99

***PaperPort 才$79.99

***TextBridge 才$79.99

友情提醒+评价 缺点:吹的多nb。下一个MULTi LANGUAGE多语言版,500MB,吓一跳。打开后发现带2个软件OmniPage和PDFCreate5。我们当然装最贵的OmniPage咯,实际安装程序越越约300MB。选择安装后250MB,kao,中文词库只不过是做样子呢!难怪微软也同时向清华买OCR技术。

12、ExperVision TypeReader

简介:新人可能不知道,但是n年前还是满有名的。 才$395.00 同时也曾是国外4大OCR公司之一。

评价:ms2008年后就没更新,以前拿了n多奖,若oem盘有带,用来ocr英文还可以。 25MB。

缺点:不支持中文算不?

友情提醒:此东东不好下,没特别需要别下

13、赛酷OCR

简介:使用云系统来OCR,说土点就是叫你装一个客户端,把图片上传到服务器上,识别后再发回来。

优点:机子配置不好的,用这东东占资源少。客户端安装文件也小。

缺点:

识别率不咋的,可能还没丹青好。除了简体,繁体竖排根本不行。

机密文件你甲认为我会安心上传给你?

万一断网,偶要OCR咋办?

友情提醒:偶就纳闷,网上关于该软件的评价很高。 (有人发帖问用啥OCR软件好,基本上就有人回“用赛酷”)就首次使用送10次识别,网上可能有那么多有钱的潜水支持者?可见肯定是1毛党!

14、SimpleOCR

简介:本来不想写这个的,但是这免费的东东名声蛮大的,我不说,人家可能会去下。

缺点:不支持中文

15、奥普ocr

简介:停止开发的东东。

注1:以上,就前9名OCR软件值得试!

注2:在线网页OCR不实际

注3:该软件的比较写于2010年,估计5年内有效

注4:此贴由winny社长验证,内容非常包青天

注5:软件按引擎Engine+词库分类

排版软件: [我就不多说软件的使用方法了(写出来可以编成书了),大家自

己看说明书]

TextForever(老马的一键式排版)

排版助手Gidot TypeSetter 一键式排版

EmEditor(强大的功能+可自创更强大的宏脚本,还可以共享脚本

TextPro

TextEditor

Word (高级替换功能:“^P^P",“^P"以及等等的"^”。。。。。

文本整理器

Notepad++/Notepad/Wordpad 最原始的

Beyond Compare

制作E书的注意事项:

5不是老马的粉丝,目前为止他的文章看的不少,但他的软件嘛。。。。

////.

////.

大家看看后再继续看我的。

Q.网上为什么会有那么多的E书

A.若是首发的话就是制作此txt的作者大概是想保护自己的劳动,免得被x在线小说??+广告-自己的名字,盗版商看上。

若非原创有些是为了阅读方便(书签,随屏幕大小换行,等等的自定义),有些则是赚名利(广告),有些则是装b玩玩(搞的好就阅读方便,搞得不好就是杀软误报,慢的不得了)

Q.可是不是那些E书都被转成txt了吗?发布者的自己的劳动不是没保护成?

A.锁是用来防君子的(下一句我不说),若想要盗怎么会难。但保护劳动的目的确达到了,比如棒槌学堂的E书把部分文字转成图片,造成网上从他书上考出来的小说都缺字。(下次看推理小说若缺字,8成是棒槌出的,去下棒槌官方E书)

Q.好多E书都报毒噢!

A.有3种情况:

1.该E书乃真实病毒

2.该E书被感染了

3.该E书误报,因为制作者或E书制作软件的问题经常使用的.js脚本被误报。多少人机子有装杀软,又有多少人技术过关知道该怎么处理?所以若该E书报毒,那该E书就不会火。

发书前因先用自己的电脑扫一下,若自己电脑的杀软都不能过就该从做。另外也该把E书上传到或virustotal这样的多引擎在线测毒网站上看看是否报毒。

以棒槌的 “《岛田庄司作品合集》08版.exe”为例,从以下的扫描报告中可以看到

////.

////.

至少50%都误报(连保存该书的skydrive都提示可能有毒),这的确是最无辜+无奈的误报。

Q.发什么格式的E书好?

A.首发的话我喜欢txt格式。当然做成pdf,word,rtf也不错。chm,html,hlp也勉强,exe还可以。

至于其他格式,若有寻求看的人会自己从txt转。

总之我特别不推荐stk,stkx,世纪最欠k的格式。

实际操作示范

实际操作示范(因人而异,习惯了大家自己发明):

拆书(若你不想拆书,而想压书的话,那就跳到扫图):

胶装书目前大多数的书都是用黏合胶粘起的,因为成本底,这种书为了防止脱页往往用了很多胶,当胶水填入锯齿内后书背就变硬了,这些胶书使背通变的硬邦邦的,扫描时往往需要使劲压书到180°才扫的来。拆书是另一种解决方法。(为了扫图效果,一般漫画扫图的都是拆书。)

引用

不用拆就能扫的书

线+胶装书:这种书基本上不用拆就能扫,应为可以轻易压成180度。

书背可弯成90度的书:

其他要拆才能扫的书

钉+胶装书:把钉子去了后去胶。

拆书原理:

只要融化了胶或用刀把胶去掉了就可以了。

实际操作:

补注资料:漫画自扫入门(拆书篇)

//./

看过教程后相信大家心里有底了。要注意的是如果用教程上的熨斗要避免蒸汽。(ps:偶当年在汉化组扫raw时是用吹风机+美工刀。有些哥们还用微波炉(?),

烤箱(?)但他们是如何还原书的?)

复原(网上好像没说):

把书页对齐,夹紧,再用熨斗把黏合胶融化了沾起。胶水不够就去买,若实在不行用:热熔胶枪+3秒胶、白乳胶替代。(传说猴子兄经常这样搞,只是不知道他的复原法)

扫图,:

补注资料:漫画自扫入门(扫描篇)

//./

特别注意的是扫图时请注意选区,就扫文字区域就够了(拆书的另一个好处,图片大小一致,不用调扫描区)。

若批量ocr,现把整本书扫完,保存后再OCR。若就OCR一页用OCR自带的扫描功能吧

所以推荐配置为:300dpi+8bit灰度+默认的自动对比度,单色tif/jpg。

图片处理:

推荐用photoshop或ComicEnhancerPro批量修图。

若扫描时把页码,书名,作者这些多余的给扫进去了,可以用批量图片分割软件(拆书的另一个好处,图片大小一致)割掉多余的,或批量打上白色水印覆盖掉不要的。

OCR识别:

我说的那些软件中选一个,识别时记得选择好识别语言。若候选语言的选项里有: 英文+数字+标点符号,请务必选上。

设置里若有“忽略段内回车换行”,“断行合并”之类的也选上吧。

扫描时没扫对齐,设置里也选上“自动倾斜矫正”(这个若当张图片,自己手动用ps搞吧)

识别竖排文字,选择框“竖栏”,反过来横排选“横栏”。繁体竖排的话导出格式要选word。(系统本身就设定成竖写列外)

校对(基本上就几种原理+步骤~学会这可以当个职业了):

这个就是最难的,大家看的一本e书功劳大多都是搞校对的。

大多OCR软件商都是吹其所谓99%识别率,别给骗了,这是数字游戏。 以一本230000字的小说为例,99%的识别率就已经错了2300个字。(更何况某些软件根本就没有99%呢?

初校:

1、替换校对法(跟第2步同时搞)

一个软件都有自己特有的错误识别规律,比如ABBYY FineReader 90%都把“二”看成“一一”。自动校对的同时可以把发现的规律性错误用"替换"这个功能给一次性去掉。

(记得同时更新下个人词库)。

2、软件校对法

**自动校对

大多OCR软件都有自带自动校对功能,(这名字真好听)其实是半自动。

OCR软件在识别时会有不确定的字,这时他就会自动找些可能的字代替(阿弥陀佛,50%竟然蒙对了)。

这自动校对就是把不确定的字跟该字在图片中的位置同时显示出来叫你自己确认。一般做完该校对,这识别率达到99.5%了。

**黑马校对

这软件就跟word的“拼写和语法检查”一样原理,利用上下文+错别字的检查。只是该软件是专门的校对软件,用来校对"自动校对"漏掉的错字(OCR软件认为识别对了但其实是确实错的字)。做完该校对,这识别率达到99.9~99.99%了。

精校:

4、比较校对法可跳过,用“黑马校对”的大可跳过

Beyond Compare 3的那个 完全编辑 功能特别适合用来对比2个不同OCR软件的识别结果。

适合把第2步的校对结果跟第2种ocr软件的原始识别结果进行比较。这样往往能看出些第一种没识别出的字。比如ABBYY会看成“曰”而Readiris就能识别成“日”。

大家可参考 隼风 兄的做法(虽然我不是这么搞):

引用

①工具→选项→文件视图→显示→默认文本→编辑器文本,设置大小“小四”(个人习惯)

②工具→选项→文件视图→比较颜色,“比较颜色”那栏,有两个调整滚动条,“差异增强”拖到最右,“背景对比度”拉到最上(同样个人习惯)

③工具→文件格式,左下框里点选文本格式,右侧选“转换”项,“每行字符限制”进行设定(我分辨率1024×768,设置27)

④其他一些设置。为了简洁窗口,一些诸如“缩略图视图”、“文本详细信息”之类的版面取消。校对的时候可以选“全部显示”或者“显示差异”,一般没差,我习惯“全部显示”。

这种识别效果若用人眼来看的话可是很累的。

5、语音校对法

找个阅读工具把文字念出来。(适合如厕时和最终校对)

6、人工校对法

找个没看过该书的,叫他边读(最好不用电脑用手机之类的)边记下错字或错字上下文。

排版:

基本上就是把不需要的 空格,自动换行 去掉+空2格,并把注解和附图的位置从新调一下。

大多排版都可用我上面说的工具处理。 当然,ocr时把页码,书名,作者这些多余的给识别了,你就要自己去掉(麻烦啊)。

注解:

书上的注解无非就是:先在生词这样“①”标记下,然后在书页尾再详细?明。(横写的注解在书的尾部,竖写的注解在左边)但是在txt中,特别是手机等上面看注解就会跟文本合在一块。

正文,生词①,第1页正文,注解,第2页正文

可以看见注解夹在第1页正文和第2页正文之间,这样在手机上看时就会让人很困扰。

解决方法有2:

1. 把“①”换成“(注解-注)”,

生词注解-注文字文字文字

2. 在出现生词的那一段话结束后附上注解。

正文,生词①,正文。

①注解

正文,正文。

值得注意的是第2种注解比较适合很长的注解。

插图:

扫描图的方法跟漫画一样,这我不说了。

但是在txt中请在插图的地方附上看图的?明。

正文 图# 正文。

最后:

在txt的开头必须注上:中文书名,中文他名,原文书名,作者,译者,OCR,校对,扫图,

txt结尾注上:完),---完--- 之类的(还可再次注上:中文书名,中文他名,原文书名,作者,译者,OCR,校对,扫图。。。)方便偶知道这书是不是完整的

果然很强悍的文章,特地寻到这里注册来回复!!但既然提到了漫画,又如何能忽略Etypist(或者)这个既可识别日文又可识别中文的OCR软件。

貌似我曾经的测试是,识别率方面,清华TH-OCR V9.0专业版 ABBYY

FineReader 10 Etypist

1. 关键是Etypist当时的版本忘记了,不知道最近有无新版。 漫友报告Etypist的识别中文效果还是不错的,所以有必要进一步测试,希望楼主补全,功德圆满焉。

2. 当年我用客户扫的比较灰蒙蒙的jpg测试,其实三个软件识别率差别很小,考虑到版面还原的因素,我最终选了ABBYY

3. 【清华TH-OCR V9.0专业版】,软件标题就是这几个字,既没有【文通】也没有【紫光】

引用

引用第6楼ihomer于2011-05-11 17:49发表的 :

果然很强悍的文章,特地寻到这里注册来回复!!但既然提到了漫画,又如何能忽略Etypist(或者)这个既可识别日文又可识别中文的OCR软件。

貌似我曾经的测试是,识别率方面,清华TH-OCR V9.0专业版 ABBYY

FineReader 10 Etypist

1. 关键是Etypist当时的版本忘记了,不知道最近有无新版。 漫友报告Etypist的识别中文效果还是不错的,所以有必要进一步测试,希望楼主补全,功德圆满焉。

Etypist?人日文小白。。。??化吧?

文通是一定要写的。。。。因为有他的份。。。正式叫法应该是TH-OCR

本文标签: 识别软件文字校对