admin管理员组

文章数量:1538723

2024年4月26日发(作者:)

在图片中获取文字

现在许多网站都有EXE、CHM、PDF等格式的电子书下载。很多时候这些电子书可以看,但是其中

的内容却不能复制。如果我们需要这些电子书中的文本内容,是不是就非得要重新输入一遍呢?当然不用这

么麻烦。下面我就告诉大家如何将这些内容从资料中提取出来。

方法一:Snaglt文字提取

是一款功能强大的图片捕 捉工具,但是很多朋友可能不知道,它 还有文字捕捉的功能,

能将文字从图片中提取出来。目前它的最新版本为7.O。启动SnagIt 7.O,在左侧选中“窗口文字”(如图),

在左侧选择输入位置(比如屏幕、区域、窗口等),输出位置(比如打印机、剪贴板、文件等)。设置完成后,.

回到要捕捉文字的文件窗口,按下“捕获”快捷键,即可将文字提取出来。

此时我们会发现提取的文字中有很多空格或出现段落错乱等情况,这时我们可以用文字编辑工

具进行重新编排。这里以WPS 2003为例:将提取文字复制粘贴至新文档中,依次选择菜单“工

具”→“文字”下的 “段落重排”→“删除段首空格”→“删除空段”命令,这时文章已经变得很整齐了。

文字识别工具

文字识别工具简称OCR工具。这里我们以清华紫光OCR文字识别工具为例。打开带有文字的

图片(如果是电子书籍,可按下“Print Screerl”屏幕捕获键将其保存为图片),根据所要提取的文字进行裁剪。

启动OCR,打开已裁减的图片,用鼠标在图片中绘制出待识别的文字区域,按下工具栏“识别"按钮

即可。文字识别结束后,会自动在一个文本编辑器中打开已提取文字,将结果复制粘贴至其他文档中即可。

方法二 利用Office 2003从图片中提取文字

Office在2003版中增加了Document Imaging工具,用它可以把文字给“抠”出来。

(1)打开传真图片,用抓图软件SnagIt对相关的内容进行抓取,然后在“文件”菜单中选择“复制到剪

贴板”命令(也可以用其他抓图软件,当然最简单的是Windows中自带的Print Screen键来抓取整个屏幕,

然后在“画图”程序中对不要的部分进行裁剪并保存,然后复制)。

(2)在“开始”菜单的“Microsoft Office工具”中打开Microsoft Office Document Imaging,在左侧窗口

中单击鼠标右键,选择“粘贴页面”,把复制的图片粘贴到Document Imaging中,在“工具”中选择“使用OCR

识别文本”,Document Imaging的OCR识别程序就会对图片进行识别,完成后选择“工具”中的“将文本发

送到Word”,程序会自动打开Word文档,展现在你面前的就是从图片中“抠”出来的文字。

提示:一般而言,识别的准确率可以达到95%以上,但对英文和数字的识别不是太好。

而在大部分用户都有安装的Office 2003套件中,也附带有OCR功能的组件

Microsoft Office Document Imaging。如果您有安装Office 2003,那么可以单击“开始”按钮指向程序组

“Microsoft Office”中的“Microsoft Office 工具”选择“Microsoft Office Document Imaging”,即可打开。但

Microsoft Office Document Imaging不是Office 2003默认的安装选项,所以在初次启用时如果该组件仍未

安装,则需要插入Office的安装光盘进行安装,但整个安装过程将自动完成,您只需要按提示信息操作即

可。

而在大部分用户都有安装的Office 2003套件中,也附带有OCR功能的组件

Microsoft Office Document Imaging。如果您有安装Office 2003,那么可以单击“开始”按钮指向程序组

“Microsoft Office”中的“Microsoft Office 工具”选择“Microsoft Office Document Imaging”,即可打开。但

Microsoft Office Document Imaging不是Office 2003默认的安装选项,所以在初次启用时如果该组件仍未

安装,则需要插入Office的安装光盘进行安装,但整个安装过程将自动完成,您只需要按提示信息操作即

怎样获取pdf图片中的文字转换导出word文本可编辑!

首先要保证你机器上安装有office2003并带有Microsoft Office Document Imaging组件,如果你在“开

始”、“所有程序”、“Microsoft Office”、“Microsoft Office 工具”依次展开后找不到Microsoft

Office Document Imaging,说明你的office2003是精简版的,这时你需要到下面这个网址下载一个完整

版的并安装上它。

接下来我说一下转换关键的步骤:

1 不管是pdf文件还是图片,把它打开,用printscreen键抓下它有文字内容的部分,粘贴到“画

图”中,另存为.tif的图片格式。

2 依次打开“开始”、“所有程序”、”、“Microsoft Office”、“Microsoft Office 工具”、

“Microsoft Office Document Imaging”。

3 用“Microsoft Office Document Imaging”打开.tif文件,点击“使用OCR识别文本”。

4 再点击“将文本发送以word”。ok!搞定!

识别率80%以上

截图中获取文字:

首先需要有WORD 里面有一项功能,大部分人都没装,不过长期做文案工作的同志这个功

能是必须要装的,就是把书面的文字变成电子版的。

工具---

WORD自带的组件,03和07的都行。点开始-程序-控制面板-添加/删除程序,找到Office-

修改 找到Microsoft Office Document Imaging 这个组件,Microsoft Office Document

Imaging Writer 点在本机上运行,安装就可以了。

软件还有一小技巧:通过改变选项里的OCR语言,可以更准确的提取文字。例如图片里为

全英文,把OCR语言改为“英语”可以确保其准确率,而如果是“默认”则最终出现的可能是

乱码

然后您把图片用WORD打开,使用刚才您添加进去的功能,它会帮您提取其中的文字。此

方法同样可以用在扫描上去的图片。这样就省了很多事情

以前我们主任让我把一本书的规程打印出来,我就是用的此方法,2个小时就搞定了。

网站内提取文字:

有些网站为了维护版权,所以禁止登陆用户使用 复制 粘贴 等功能键,您可以用快捷键来

解决 Ctrl+c 复制 Ctrl+v 粘贴

有的更是把全选功能屏蔽了,无法选中需要的文字(例如网站里的小说内容),这样您可以

点-文件(快捷键:alt + f)——另存为——选择文件类型最好使用:仅HTML 的格式,

这样网页中的内容不会变动地方,格式也一样。保存完毕之后,找到你刚才保存的那个文件,

打开它,去复制你喜欢的东西吧 ^_^~

如果保存纯文本(TXT)格式 所有的字都会显示在上面,给您选取的时候会带来

很多不便。

本文标签: 文字图片安装识别提取