本篇文章789字,读完约2分钟
最近,同墩人工智能研究所发布了arxiv的最新研究成果,题为《基于文本行和文本行图像质量数据合成的文档图像质量评价框架》。研究成果的表现达到了国际领先水平,并被今年9月举行的第15届国际文献分析与识别会议(icdar2019)录用。Icdar是世界范围内公认的文档图像分析与识别领域的权威学术会议,自1991年以来每两年举行一次。
在互联网公司的业务流程中,经常需要提交一些文档进行审查。随着智能手机的普及,通过手机上传文件和图片已经成为主流方式。同时,文档图像的数量迅速增加,人工输入和检查文档和资料以完成业务变得极其困难。因此,文档图像的智能分析和识别变得越来越重要,这也是智能过程自动化(ipa)的核心技术之一。 例如,在医疗保险赔偿中,智能流程一般包括以下环节: 文档图像采集:用户采集并上传图像 文档图像质量评估:系统实时评估图像质量。如果不清楚,直接要求用户上传 文档资料分类:自动分类清晰的文档资料 ocr信息提取:检测、定位和识别文档以提取文档信息 信息结构:利用自然语言处理和知识地图技术的结构信息 智能补偿:来自医生、药品、疾病、人员等
显然,在上述过程中,如果用户上传的数据清晰度差,文档图像ocr的识别准确率会大大降低,进而影响后续的业务流程。因此,有必要评估文档图像质量,以防止上传那些低质量的文档图像。与传统的图像质量评估不同,研究人员发现文档图像质量评估更关注文本行范围内的质量。为此,作者提出了一种基于文本行的文档图像质量评价框架,该框架由文本行检测、文本行质量预测和文档图像整体质量评价三个阶段组成。
此外,为了训练文本行质量预测模型,本项目合成了一个文本行图像质量数据集,其中包含52,094个文本行图像,并使用分割函数模拟和计算相应的质量标签。该算法在最困难的文档图像质量评价标准集smartdoc-qa上表现优异,比世界上最好的方法高出10%以上。
标题:同盾人工智能研究院发表文档图像最新研究成果,性能达到国际领先水平
地址:http://www.ao5g.com/adlxw/11510.html