2024年8月30日至9月4日,国际文档分析与识别会议International Conference on Document Analysis and Recognition(以下简称ICDAR)在希腊雅典举行。今年ICDAR设立了十余项竞赛,吸引了全球诸多知名科技公司和研究机构的参与。理光中国研究院NLP团队在ICDAR官方比赛“通过 Aria 眼镜阅读文档(Reading Documents Through Aria Glasses)”赛道上,斩获“低分辨率下的单词识别”及“页面级别的识别与阅读”两项任务的较高排名。
*“页面级别的识别与阅读”任务较高排名奖状
ICDAR赛事介绍
ICDAR由国际模式识别协会IAPR(International Association of Pattern Recognition)举办,是模式识别、计算机视觉领域、图像处理领域最为重要的国际学术会议之一,涵盖了文档分析与识别领域的最 新学术成果和前沿应用发展趋势。
“通过 Aria 眼镜阅读文档(Reading Documents Through Aria Glasses)”赛道,涉及到理解和处理使用Aria 设备*采集到的文本内容。任务目标是开发一系列稳健的图像处理算法来识别整个页面中的文字内容,同时保持正确的阅读顺序。具体来说,包括以下两个子过程:1)低分辨率下的单词识别:检测并识别来自Aria眼镜采集图像中的单词文本;2)阅读顺序预测:预测从页面中提取的单词级文本的阅读顺序(即页面上单词的序列)。
*ICDAR会场上,主办方介绍任务数据示例
*ICDAR会场上,主办方介绍任务目标与挑战
理光的突破创新与应用实践
理解文档是可穿戴人工智能系统的基本任务,需要开发解决方案,赋予系统阅读和理解文档中知识的能力。除了传统的文档分析挑战外,可穿戴设备图像还受到人体姿势的多样性、不同的光照条件、潜在的障碍物以及其他场景中主体的影响,这些因素在获取准确的光学字符识别(OCR)时增加了额外的障碍。
理光中国研究院将自身各种技术积累有机结合,在单词识别部分,搭建了以PARSeq(Permuted AutoRegressive Sequence)为基础的模型,采用了创新的模型迭代训练方法和成熟的数据合成技术,进一步提高了识别性能。在阅读顺序预测部分,理光没有将其定义为传统的排序任务或翻译任务,而是建模为具备语义分割能力的布局解析任务。基于在表格识别和图纸识别项目上的丰富经验,理光自研的语义分割框架,在任务数据上微调后,展现了优秀的解析效果。
理光中国研究院在OCR技术研究和各种场景下的项目实践经验方面有着深刻的理解。在基础技术研究方面,理光中国研究院一直致力于图像处理、文本检测、文本识别、布局分析、表格识别以及与文档理解相关的其他技术的研究,并取得了领先成果。在应用方面,理光中国研究院已成功将OCR技术适配到设计图纸、财务报告、合同、票据以及传统文档以外的其他领域。这些解决方案已经成功服务于多领域客户,并在特定需要的定制化适配方面积累了丰富的经验。
图纸档案数字化解决方案,可以实现扫描件表格文字识别,信息提取和比对,以及归档流程处理的自动化,有效解决海量图纸数字化过程中大量的信息查找,手动录入,人工审核,繁琐归档的难题,实现了有效智能的图纸数字化管理,90%以上峰程实现自动化。
财务文档数字化解决方案,可以实现各类财报文档自动识别,关键数据提取录入与结构化,同时配合金融领域风险评估模型,极大程度地提高了金融风险识别的效率和准确率。
合同比对解决方案,可以进行合同文档比对,将电子文档,扫描件等不同版本的合同文档进行智能分析比对,检测包含范本使用,文本修改,字符标点等各类差异,极大提高比对效率并控制风险。
合同审阅解决方案,可以对印章和关键内容进行识别和审阅:自动识别印章错盖漏盖,智能提取合同关键信息(例如合同主体,金额,时间,特殊条款等内容),提高复核,审批,以及自动化归档管理效率。
理光将继续秉承创新精神,不断深化技术研究,拓展OCR技术的应用领域,以满足不断变化的市场需求。我们期待与更多的合作伙伴携手,将我们的技术应用于更广泛的行业和场景中,共同推动人工智能技术的进步。同时,我们也将持续关注客户的需求,通过不断的优化和创新,提供更加准确、有效的解决方案,以帮助客户解决实际问题,提升工作效率。
(推广)