简介:ECCV 2022上,白翔团队提出的CAN算法通过符号计数与手写数学公式识别联合优化,显著提升了复杂数学公式的识别准确率,为自动阅卷、数字图书馆等领域带来革新。
在计算机视觉与人工智能领域,手写数学公式识别(Handwritten Mathematical Expression Recognition, HMER)一直是一个极具挑战性的任务。随着自动阅卷、数字图书馆建设、办公自动化等领域的快速发展,对高效、准确的手写数学公式识别技术的需求日益迫切。然而,由于手写数学公式具有复杂的空间结构和多样化的书写风格,传统OCR技术难以达到理想的识别效果。近日,在ECCV 2022(欧洲计算机视觉国际会议)上,白翔团队提出的CAN(Counting-Aware Network)算法为这一难题提供了全新的解决方案。
CAN算法的核心思想是将符号计数任务与手写数学公式识别任务联合优化,以增强模型对符号位置的感知能力,从而提升识别准确率。该算法主要由三部分组成:主干特征提取网络、多尺度计数模块(MSCM)和结合计数的注意力解码器(CCAD)。
主干特征提取网络:采用DenseNet作为特征提取器,对输入的手写数学公式图像进行特征提取,生成2D特征图。
多尺度计数模块(MSCM):该模块借鉴了人群计数等任务中的弱监督范式,在仅使用公式识别原始标注(LaTeX序列)而不使用符号位置标注的情况下进行多类符号计数。MSCM通过多尺度特征提取和Sigmoid激活函数,生成表征各类符号计数值的计数向量。
结合计数的注意力解码器(CCAD):在解码过程中,CCAD不仅利用特征图中的局部特征,还引入符号计数结果作为额外的全局信息,以提升识别准确率。同时,使用位置编码表征特征图中不同空间位置,进一步增强模型对空间位置的感知能力。
白翔团队在广泛使用的CROHME数据集以及新出现的HME100K数据集上进行了实验,并与之前的最优方法进行了比较。实验结果表明,CAN算法取得了目前最高的识别准确率。此外,使用经典模型DWAP和之前最优模型ABM作为baseline,CAN-DWAP和CAN-ABM的结果均优于对应的baseline模型,验证了CAN算法的有效性和泛化能力。
CAN算法的成功应用将为自动阅卷、数字图书馆建设、办公自动化等领域带来显著效益。例如,在自动阅卷系统中,CAN算法能够准确识别学生手写的数学公式,减轻教师的工作负担;在数字图书馆中,CAN算法能够高效地将手写数学公式转换为可编辑的LaTeX格式,便于学术交流和知识传播。
白翔团队在ECCV 2022上提出的CAN算法为手写数学公式识别领域带来了重大突破。通过联合优化符号计数任务和手写数学公式识别任务,CAN算法显著提升了复杂数学公式的识别准确率。未来,随着技术的不断发展和完善,CAN算法有望在更多领域发挥重要作用,推动计算机视觉与人工智能技术的进一步发展。
参考文献: