在2021年轻量级文字识别技术创新大赛(Lightweight Optical Character Recognition, 简称LOCR)中,科大讯飞以复杂自然场景83.29%的整句正确率,取得第一名。

这是科大讯飞继在ICPR 2018 MTWI图文识别挑战赛上获得三项冠军、ICDAR 2019 CROHME数学公式识别挑战赛上获得两项冠军、ICFHR 2020 OffRaSHME数学公式识别挑战赛上获得冠军后,在文字识别方向上所取得的又一佳绩。

什么是LOCR?

别急,让我们先从OCR开始。

O Optical 光学

C Character 字符

R Recognition 识别

就是将图像转换为文字的技术。这项技术我们介绍过很多次,生活中早已随处可见,讯飞输入法的手写输入、讯飞双屏翻译机的拍照识图、科大讯飞AI学习机试卷扫描功能运用的都是OCR。

讯飞翻译笔S10扫描识别功能演示

目前讯飞产品中所搭载的OCR技术,是讯飞AI研究院研发的基于深度神经网络模型端到端文字识别系统,识别文字符号的数字影像,并将其转换为对应的数字文本,最终达到识别的文字结果可编辑、可处理的目的。

那么OCR前面加一个L,有什么不同呢?

LOCR就是Lightweight OCR轻量级光学字符识别。它并不是单独的技术点,而是轻量化的OCR技术。

相较于OCR,LOCR在终端设备内部计算,所以即使断网也可以使用,又因为模型小,推理速度也相对变快,显著降低了响应时间和成本,大大提升使用体验。仅用2.4M参数量,就达到复杂自然场景83.29%的整句正确率。

要知道2.4M,还没有我们手机拍摄的一张照片大。

可是,模型大小一缩再缩,会不会影响到识别效果呢?

答案是:不会。

这就需要强调此次比赛面临的两个难点:

轻量化模型:考虑识别模型在各类设备的可部署性,模型大小必须严格限制在10M以内;

多样化场景:任务涵盖了日常街景、文档、手写等多类场景,同时这些场景的书写方向、遮挡、艺术字等问题也让识别更加复杂。

因此面对以上技术难点:

首先,针对LOCR任务中对模型参数量的强硬限制指标,ECSR创新性提出了神经网络共享参数池的新方法,实现了神经网络参数上的跨层离散共享,并端到端训练和优化,在参数量减少4倍的情况下效果无损;

其次,针对行文本识别这一序列识别任务,ECSR采用了CTC-ED联合建模以及区分性训练技术,进一步提升了2%以上的整句识别率;

最后,针对轻量化模型的训练和收敛,科大讯飞还提出了多阶段渐进式训练和数据增强课程学习等方法,极大提升了轻量化模型的最终识别效果。

这么专业复杂的术语不懂没关系,简而言之,就是这一系列创新可以在识别模型被缩小的情况下,识别效果无损,还能让识别效果大大提升。

LOCR离你有多近?

只要处于未联网状态,讯飞翻译机所调用的OCR服务、讯飞智能办公本的行写、自由写等功能、讯飞智慧窗中的中英、拼音手写、讯飞翻译笔中的扫描识别技术等均为本地轻量化OCR。

而这项技术均已搭载了获奖的ECSR模型中的轻量化算法,逐渐实践应用在讯飞系产品中。借助ECSR中的轻量化算法,许多AI能力无需上云,在保证效果的同时,可以在本地设备上快速完成运算,就是这样一个创新,让文字识别更加高效和便捷。

讯飞智慧屏LOCR技术展示

也就是说,如果你的身边有讯飞翻译笔,或者讯飞智能办公本,哪怕是讯飞输入法APP,都可以来体验一下LOCR技术的强大之处。

免责声明:凡注明为其它来源的信息均转自其它平台,目的在于传递更多信息,并不代表本站观点及立场。若有侵权或异议请联系我们处理。

相关推荐