admin管理员组

文章数量:1537097

2023年12月23日发(作者:)

PDF等文档中文字和CAD图形的识别提取陆仁钉适用于:PDF、CAJ和图像转电子版文档;PDF中CAD图形提取;(一)文本识别PDF的文字提取和编辑需要用到Adobe的专业软件Acrobat,该软件可完成PDF的所有操作。如果不安装Acrobat,或是需要识别其他类似扫描件的文字对象,可使用其他OCR软件。OCR,全称OpticalCharacterRecognition,即光学字符识别技术。常用的OCR软件有:一、CAJViewer6.0:国产CAJ格式的阅读器,可识别包括PDF在内的多种文件格式(见下图),准确率良好。菜单栏-工具-文字识别(点击下拉箭头全部展开才能看见),识别后可选择复制到剪贴板或发送到WPS/WORD。CAJViewer支持的格式:二、MicrosoftOfficeDocumentImaging微软官方的Office组件,office2003默认安装,2007版本需要在安装选项中手动选中;已安装的office2007可在控制面板的程序卸载页选择,进行更改,展开office工具选项后在MicrosoftOfficeDocumentImaging上点击选“安装全部程序”;

MicrosoftOfficeDocumentImaging安装完成即可在office工具下找到并打开,如下图;支持的格式:mdi和tiff或tif,但mdi不能直接打开,双击打开时会提示不是有效的win32应用程序。mdi不能直接双击打开报错:MicrosoftOfficeDocumentImaging安装后同时也作为虚拟打印机(imagewriter)使用,在识别图像或文档格式前,需将其打印为mdi或tiff;若要在发送到Word的所选内容中包括图片,请选中“在输出时保持图片版式不变”复选框,但效果一般不好,需要图片时可框选后右键“复制图像”。常见问题:开始OCR识别时“MicrosoftOfficeDocumentImaging已停止。出现了一个问题,导致程序停止工作,请关闭程序!”解决:安装相应补丁,下载链接:/share/link?shareid=449973&uk=3609309728

或:/s/1AeZ4U(解压文件后,全部复制到此位置,全部替换:C:ProgramFilesCommonFilesMicrosoftSharedMODI12.0三、其他OCR软件:汉王PDFOCR、尚书七号、清华紫光OCR9.0、丹青以及赛酷等。(二)PDF中CAD图形提取1.条件:由CAD图形文件(.dwg)打印的PDF等文档,可以识别图形并逆向生成dwg,但截图和扫描等原理得到的图像不适用。2.方法:以PDF2CAD为例,下载PDF2CAD(大小约5MB)→安装→打开→添加PDF→设置目标位置→转换→生成dxf→在AutoCAD等绘图软件中打开dxf→编辑图形→存为dwg。3.注意:注意如果PDF稍大,数十页以上且含图片,将会生成数百个文件;转化得到的图形是完全分解的元素,一般生成两个图层,包括文字在内的所有对象都由线条构成。类似的小插件较多,也可尝试其他的。☺PDF2CADV6.0下载链接:/s/1c0DyEsC☺其他链接:AdobeAcrobat:/s/1y9C30Office2007:/s/1eQEG48a

本文标签: 识别安装文字图形打开