使用MODI（Microsoft Office Document Imaging）识别中文，但无法区分段落|电子爱好者

admin管理员组
文章数量:1583031

最近打算使用MODI（Microsoft Office Document Imaging）提供的接口识别简体中文，以实现一个简单的ocr功能，但在尝试过程中发现MODI识别出来的中文不包含段落以及空格等特殊字符，本来是打算使用tesseract-ocr的，识别出的文本就包括段落以及空格，但中文识别率较低，通过training也失败了。

具体代码如下：

   MODI.Document doc = new MODI.Document();
                doc.Create(img_Path);
                MODI.Image image;
                MODI.Layout layout;
                MODI.Word word;
                StringBuilder sbWord = new StringBuilder();
                doc.OCR(MODI.MiLANGUAGES.miLANG_CHINESE_SIMPLIFIED, true, true);  // 识别文字类型
                for (int i = 0; i < doc.Images.Count; i++)
                {
                    image = (MODI.Image)doc.Images[i];
                    layout = image.Layout;
                    sb.Append(layout.Text);
                }

layout.Text输出的是不包含段落的文本，如我识别以下图：

输出的结果是：

恩平市人民政府办公室文件思府办［ 2001 〕 10 号转发国务院办公厅关于实施 《 国家行政机关公文处理办法 》 涉及的几个具体问题的处理意见的通知各鹅人民坟府市篇农林场耳币府 i 蕊局以上平位：砚将‘国务院办公厅关于实施（国东行政机关公丈处理办法）沙及的几个具体问皿的处理启见 》 转发给你们诸认二 t 彻执行

无任何的段落识别，而我想要的效果是每一个段落都有一个换行或者空格

本文标签：中文段落 Microsoft MODI office

版权声明：本文标题：使用MODI（Microsoft Office Document Imaging）识别中文，但无法区分段落内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1727907726a1137577.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

【C#】VS2019 添加引用中没有 Microsoft.Office.XXX 的解决办法

1小时前

文章目录前言解决方案结语前言今天在写 C# 实验的时候遇到了命名空间“Microsoft”中不存在类型或命名空间名“Office”(是否缺少程序集引用?)“Microsoft.Office.Interop”中不存在类型或命名空

Windows 正在配置 Microsoft Office Professional Edition 2003

1小时前

最近重装了系统，之后发现access 2003 不能用了，说是在进行配置工作，点确定，就没了，之后来回试了几次都是这样&#

Microsoft Office 2013弹出Microsoft Office 已停止工作的解决方法

1小时前

最日刚刚重装了系统，发现Word 2013 总是弹出“Microsoft Office 已停止工作”，上网找了好几种方法，都不好使，最后还是听别人劝告&

解决 Mac 下编辑 Microsoft Office Word 文档与 Windows 排版不一致的问题

1小时前

使用Microsoft Office for Mac编辑文档，在Windows下打开有时排版会发生改变，这个问题是由两款操作系统的字体库不一致导致的。解决方法： 1.在ma

Microsoft Office Word已停止工作的终极解决方案

1小时前

Microsoft Office Word已停止工作出现此问题的原因无从追究,很多问题都会导致出现这样的提示如下图所示方法一、双击打开“计算机”在右上方的搜索框中输入“Normal.dot”，此时Win7系统会

修复 Microsoft Office 卡在准备就绪上的问题

1小时前

在使用 Microsoft Office 时，有时候会遇到程序在启动时卡在"准备就绪"界面的情况。这可能是由多种原因引起的，包括损坏的 Office 安装、冲突的插件、损坏的用户配置文件等。下面将介绍一些常见的解决方法，

新建 Microsoft Office Word 文档

1小时前

CSL正在学习《计算机办公自动化》文件的建立与删除。 CSL发现，当他新建一个word文档时，会得到一个名为"新建 Microsoft Office Word 文档.doc"

删除 Microsoft Office Word 中页眉、页脚的横线

1小时前

一、问题描述：上面有一条横线二、解决办法点击【开始】，再点击【样式】右下角的箭头，或者直接快捷键【AltCtrlShiftS】再点击【管理样式】打开之后&#

C#引用com组件Microsoft.Office.Interop.Excel.dll读取EXCEL文件

1小时前

首先是Excel.dll的获取,将Office安装目录下的Excel.exe文件Copy到DotNet的bin目录下,cmd到该目录下,运行 TlbImp EXCEL.EXE Excel.dll 得到Dll文件。再在项目中添加引用该dll

非核心版本的计算机上_哪个版本的Microsoft Office最好使用、来占用最少的资源...

1小时前

使用过多个版本的Microsoft Office和WPS Office。让我推荐几个版本： Microsoft Office 2003和Microsoft Office 2007是两个资源最密集的版本(不考虑旧版本的O

Microsoft office && Visio 各版本

1小时前

链接：https:pan.baidus1SStZHWTq4LZ1-NmKHTzdAw 密码：r22b

Windows和Office的那些中文内置字体

1小时前

记得我刚开始第一次上手折腾Word的时候看到那一大串字体，整个就懵掉。 “这是什么字体？”“这有区别吗？”“这都谁跟谁啊？”。所以最近花了点时间整理了

如何修改显示Office图标而不是wps图标

1小时前

1. windowsR”打开运行菜单，输入注册表编辑命令regedit，进入注册表 2. 找到异常显示图标文件格式对应的子键 Word图标： [HKEY_CLASSES

office官方卸载工具

1小时前

Microsoft 支持和恢复助手经常找不到卸载工具，记录一下地址微软官网下载地址： SetupProd_OffScrub.or https:xswd.lanzouwiDwM

打开Word时总是出现 “Microsoft Office Word 需要 VBA 宏语言支持来完成此操作

1小时前

打开Word时总是出现“Microsoft Office Word 需要 VBA 宏语言支持来完成此操作。”和一大堆对话框怎么解决？ 启动Word，选择“工具 → 宏 → 安全性”&#x

Microsoft Office Excel cannot open or save any more documents because there is not enough available

1小时前

Microsoft Office Excel (0x800A03EC) .NET导出Excel遇到的80070005错误的解决方法:检索 COM 类工厂中 CLSID 为 {00024500-0000-0000-C000-000000

超详细Office Online Server部署

1小时前

简介 Office Online Server 提供 Word、PowerPoint、Excel 和 OneNote 的基于浏览器的版本，它为 Office 文件提供基于浏览器的文件查看和编辑服务。Office On

Linux下安装搜狗拼音不能显示中文？

1小时前

解决Ubuntu14.04下Qt5.6搜狗输入法中文fcitx

1小时前

一、前言目的：编译生成libfcitxplatforminputcontextplugin.so，放到Qt文件夹下，实现Qt Creater中的快捷键输入法切换以及搜狗中

webstorm汉化怎样切回英文_虐心抓狂问题：webstorm使用搜狗输入法输入英文自动切换为中文...

1小时前

抓狂：在webstrom中使用搜狗输入法编写代码时，按下shift键，切换到英文输入状态，想要输入helloworld单词，但是奇葩的现象出现了，没等输入完hello单词，输入法状态就自动切换到了中文输入状态，那些汉字活蹦乱跳地冒出来，最

电子爱好者 - 最新技术资讯及电子产品介绍！

使用MODI（Microsoft Office Document Imaging）识别中文，但无法区分段落

更多相关文章

【C#】VS2019 添加引用中没有 Microsoft.Office.XXX 的解决办法

Windows 正在配置 Microsoft Office Professional Edition 2003

Microsoft Office 2013弹出Microsoft Office 已停止工作的解决方法

解决 Mac 下编辑 Microsoft Office Word 文档与 Windows 排版不一致的问题

Microsoft Office Word已停止工作 的终极解决方案

修复 Microsoft Office 卡在准备就绪上的问题

新建 Microsoft Office Word 文档

删除 Microsoft Office Word 中页眉、页脚的横线

C#引用com组件Microsoft.Office.Interop.Excel.dll读取EXCEL文件

非核心版本的计算机上_哪个版本的Microsoft Office最好使用、来占用最少的资源...

Microsoft office &amp;&amp; Visio 各版本

Windows和Office的那些中文内置字体

如何修改显示Office图标而不是wps图标

office官方卸载工具

打开Word时总是出现 “Microsoft Office Word 需要 VBA 宏语言支持来完成此操作

Microsoft Office Excel cannot open or save any more documents because there is not enough available

超详细Office Online Server部署

Linux下安装搜狗拼音不能显示中文？

解决Ubuntu14.04下Qt5.6搜狗输入法中文fcitx

webstorm汉化怎样切回英文_虐心抓狂问题：webstorm使用搜狗输入法输入英文自动切换为中文...

发表评论

推荐文章

windows 10 下运行Faster R-CNN（TF）

CAD快速看图怎么看

win10休眠后有自动关机的情况

oracle 19c rman定时全库备份与cdbpdb全库恢复操作

打开 Office 出现配置进度然后报错“Microsoft Office 无法找到此应用程序的许可证，修复尝试失败或者已被取消”

热门文章

Thinkpad系统重装终极版

不羁联盟卡9%卡屏屏幕卡住卡顿怎么办？最有效的解决方法免费分享

使用Windows10搭建服务器——一次虚拟机实验记录

到最后我都没有破解出我家隔壁的wifi密码

CAD看图软件中的测量结果如何保存分享？

小白篇(十八)：恢复Hive误删的表数据

QQ消息 pc端防撤回

2023年浙大MEM英语二作文干货模版：临阵磨枪可用

safari浏览器_浏览器趋势2015年7月：Safari停滞了吗？

免费申请 Microsoft office E5 订阅获取 OneDrive 5TB储存空间

最新文章

C盘清理小程序制作

windows 10 清理系统盘

清理C盘垃圾，设置默认安装到其他盘

深度清理C盘空间，让你的C盘多出20G

有效的C盘清理方法

win10深度清理c盘垃圾的方法【系统天地】

win10有效清理c盘空间: 移动pagefile.sys和删除hiberfil.sys文件

电脑使用技巧提升篇6：清理C盘垃圾的3个方法

【python实战】我在大学靠帮别人清理C盘赚够了伙食费

清理Win10系统C盘的脚本方法

按这十项去做，电脑反应想慢下来都难

windows存储空间清理，C盘空间清理教程，磁盘清理方法

清理c盘的垃圾文件

一行指令清理C盘释放12.8G硬盘空间

Windows 10 下C盘空间清理全攻略（Win10 C盘清理 ）

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

Microsoft Office Word已停止工作的终极解决方案

Microsoft office && Visio 各版本

Windows 10 下C盘空间清理全攻略（Win10 C盘清理）

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载