admin管理员组文章数量:1583031
最近打算使用MODI(Microsoft Office Document Imaging)提供的接口识别简体中文,以实现一个简单的ocr功能,但在尝试过程中发现MODI识别出来的中文不包含段落以及空格等特殊字符,本来是打算使用tesseract-ocr的,识别出的文本就包括段落以及空格,但中文识别率较低,通过training也失败了。
具体代码如下:
MODI.Document doc = new MODI.Document(); doc.Create(img_Path); MODI.Image image; MODI.Layout layout; MODI.Word word; StringBuilder sbWord = new StringBuilder(); doc.OCR(MODI.MiLANGUAGES.miLANG_CHINESE_SIMPLIFIED, true, true); // 识别文字类型 for (int i = 0; i < doc.Images.Count; i++) { image = (MODI.Image)doc.Images[i]; layout = image.Layout; sb.Append(layout.Text); }
layout.Text输出的是不包含段落的文本,如我识别以下图:
输出的结果是:
恩平市人民政府办公室文件思府办[ 2001 〕 10 号转发国务院办公厅关于实施 《 国家行政机关公文处理办法 》 涉及的几个具体问题的处理意见的通知各鹅人民坟府市篇农林场耳币府 i 蕊局以上平位:砚将‘国务院办公厅关于实施(国东行政机关公丈处理办法)沙及的几个具体问皿的处理启见 》 转发给你们诸认二 t 彻执行
无任何的段落识别,而我想要的效果是每一个段落都有一个换行或者空格
版权声明:本文标题:使用MODI(Microsoft Office Document Imaging)识别中文,但无法区分段落 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://m.elefans.com/dongtai/1727907726a1137577.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论