简介:Vary团队开源了通用端到端OCR模型GOT,该模型支持多种OCR任务,具有高效性能和广泛适用性。GOT的开源旨在推动OCR技术的发展,拒绝多模态大模型的降维打击,为科研、文档管理等领域带来革新。
在AI技术日新月异的今天,OCR(光学字符识别)技术作为连接图像文本与数字世界的桥梁,始终扮演着至关重要的角色。然而,随着多模态大模型的崛起,OCR技术似乎面临被降维打击的风险。正是在这样的背景下,Vary团队推出了通用端到端OCR模型GOT(Going Beyond OCR),并正式开源,为OCR技术的发展注入了新的活力。
GOT模型的创新之处
GOT模型的最大亮点在于其通用性。在输入方面,GOT支持Scene Text OCR、Document OCR、Fine-grained OCR等多种任务,能够应对各种复杂场景下的文字识别需求。在输出方面,GOT不仅支持普通的plain texts输出,还支持可读性强、可编辑的formatted文本输出,如markdown等,大大提升了文字处理的效率和便捷性。
GOT模型采用了vision encoder+input embedding layer+decoder的pipeline结构,其中Encoder主体采用带local attention的VITDet架构,有效避免了全局关注模式带来的显存浪费问题。同时,Encoder后两层采用Vary的双卷积设计方案,进一步提升了模型的性能。整个Encoder能够将1024×1024×3的图像压缩为256×1024的image tokens,足以应对A4纸级别的dense OCR任务。
三阶段训练策略
GOT模型的训练过程遵循了三阶段的训练策略。第一阶段是高效预训练encoder,该阶段使用小型OPT-125M作为decoder为encoder提供优化方向,快速灌入大量数据。第二阶段是联合训练encoder-decoder,该阶段GOT的基本结构搭建完成,并增加了对于OCR-2.0知识的理解。第三阶段是锁住encoder,加强decoder以适配更多的OCR应用场景,如支持坐标或者颜色引导的细粒度OCR、动态分辨率OCR技术、多页OCR技术等。
GOT模型的实际应用
GOT模型的开源为科研、文档管理、数据提取等多个领域带来了革新。在科研领域,研究人员经常需要从多篇文献中提取信息,GOT模型的高效性能和广泛适用性使其成为了理想的选择。在文档管理领域,GOT模型能够轻松应对各种格式的文档识别需求,大大提升了文档处理的效率和准确性。此外,GOT模型还支持多种输出格式,如Markdown等,使得其在日常工作中的实用性更加显著。
OCR技术的未来展望
随着GOT模型的开源与发展,更多用户将意识到OCR技术与多模态AI融合的重要性。OCR技术不再是单一的工具或模块,而是成为了多模态AI系统中的重要组成部分。在未来,OCR技术将更加注重与其他AI技术的融合与创新,如自然语言处理、计算机视觉等,共同推动人工智能技术的发展。
同时,我们也应该看到OCR技术面临的挑战与机遇。随着技术的不断进步和应用场景的不断拓展,OCR技术需要不断提升自身的性能和准确性。同时,OCR技术也需要更加注重用户隐私和数据安全等方面的保护。
结语
GOT模型的开源为OCR技术的发展带来了新的机遇与挑战。我们相信在Vary团队及广大研究者的共同努力下,OCR技术将不断取得新的突破和进展。同时,我们也期待更多像GOT这样的优秀模型能够涌现出来,共同推动人工智能技术的繁荣与发展。在这个过程中,千帆大模型开发与服务平台作为专业的AI模型开发与服务平台,将为广大研究者提供强有力的支持和保障,共同推动OCR技术迈向新的高度。