深度解析:利用文档图像大模型增强智能文档处理效能
前言
自 ChatGPT 于 2022 年 11 月发布以来,大模型的相关研究在全世界的学术界和工业界都引起了广泛的关注。大模型技术也为智能文档处理领域带来了新的机遇。通过在智能文档处理领域训练和应用大规模深度学习模型,能够提供更准确、全面的文档理解与分析,改善文档图像识别和分类的性能,并提供强大的文档生成和翻译能力。这将推动智能文档处理技术的发展,为各行各业的数字化转型和智能化升级提供重要支持。
本节将回顾来自合合信息的丁凯博士在第十九届中国图象图形学学会青年科学家会议 - 垂直领域大模型论坛中关于文档图像大模型的思考与探索,并介绍在大模型时代下文档智能处理技术面临的挑战和研究进展。
垂直领域大模型论坛
论坛介绍
2023 年 12 月 28 日至 31 日在广州成功举办'第十九届中国图像图形学学会青年科学家会议',该会议由中国图像图形学学会青年工作委员会主办,合合信息联合承办。会议面向国际学术前沿与国家战略需求,聚焦最新前沿技术和热点领域。
2023 年 12 月 29 日下午,垂直领域大模型论坛成功举办。'垂直领域大模型'致力于在重要的前沿科技领域开发特定行业或应用领域优化的大型人工智能模型,同时,也为行业特定解决方案、数据分析和智能决策提供了重要的技术支撑。此次论坛的重点是介绍垂直领域大模型的最新研究进展与前沿技术,旨在促进图像图形领域学术界与产业界之间的交流与合作,推动该领域的创新与发展。
走近合合信息
合合信息发布的产品包括名片全能王、扫描全能王和 TextIn 智能文档处理云平台,为全球用户和企业提供服务。其研究团队合合 TextIn 在智能文档处理技术领域进行了广泛而深入的研究,包括文档图像分析与预处理、文档解析与识别、版面分析与还原、文档信息抽取与理解、AI 安全以及存储检索和管理等多个关键技术,为智能文档处理领域的发展做出了贡献。
大模型时代下的文档图像智能处理
文档图像智能处理是一种将图像和文本结合起来的技术,可以将图像中的文字识别为计算机可读的文本,并将其用于数据分析、信息检索、自然语言处理以及其他信息处理任务中。因此文档图像智能分析与处理在现实场景具有重要意义,不仅能够进行自动化识别和提取文本信息,降低人力成本,提高生产效率,同时具有广泛的应用场景。
![图片:文档图像智能处理示意图]
但目前,文档图像智能分析与处理过程中仍面临着诸多挑战。例如,文档类型的多样产生了繁杂的版式与结构,同时文档图像来源的多样导致了形式、格式、布局、字体、大小等方面具有的差异性。同时受拍摄器材、背景环境影响,文档图像可能存在噪声、失真、模糊等问题,这会影响到图像的质量和识别准确度。
![图片:文档图像质量差异示例]
因此文档图像智能处理是图像图形技术研究的重要方向。为了推动相关研发和实践工作,在垂直领域大模型论坛上,来自合合信息的丁凯博士主要介绍了大模型时代下文档图像智能处理面临的一些关键技术难题和挑战,以及合合信息在解决文档图像智能处理领域面临的各类问题时所做一些相关工作进展和研究成果。
大模型发展
随着 ChatGPT 等大模型在自然语言处理和其他领域的广泛应用,大模型这一概念开始受到越来越多的关注。一方面,大模型在很多领域都取得了显著的成果,为人工智能技术的发展提供了强大的支撑。例如,在自然语言处理领域,大模型可以实现更精确、更快速的文本生成、机器翻译等任务;在图像识别领域,大模型可以实现更高准确性的图像分类和目标检测等任务。另一方面,随着硬件技术的不断进步和计算资源的逐步普及,大模型的应用也逐渐向更多的领域扩展。越来越多的企业和研究机构开始关注大模型的应用与研究。
![图片:大模型应用场景分布]
在文档图像智能处理领域,随着多模态大模型的深入研究和发展,使得处理具有多种类型和来源的数据变得更加容易和精确。例如,可以通过使用多模态信息(如文本、视觉和音频)来实现文档图像的内容理解和分类,并且可以使用大规模深度学习模型进行训练与推理,从而取得更好的效果和性能。
GPT-4V 在文档领域的表现
GPT-4V 是基于 SOTA(state of the art)大语言模型(Large Language Model, LLM)并使用大量多模态数据训练的最先进的具有视觉能力的大型多模态模型(Large Multimodal Model, LMM)。GPT-4V 不仅可以使用仅文本输入(text-only inputs),也可以选择仅带有单个图像的单个图像 - 文本对(single image-text pair),还可以选择带有多个图像输入(multiple image inputs)的交错图像 - 文本对(interleaved image-text pairs)。
在场景文字识别,无论语言的种类和形态,GPT-4V 都可以取得较好的结果。与此同时,在类似手写文字识别、几何图像与文字结合的教育场景中,GPT-4V 也具有优秀的表现。而传统的技术想要实现在几何图像与文字结合的文档中做到正确识别,需要多个模型进行缝合,并针对特定场景进行定制,其泛化能力有限。
![图片:GPT-4V 手写及几何图识别效果]
除了常规的证件识别外,GPT-4V 也可以针对比较复杂版式,甚至对于多张不同的文档图像以及文档图像与自然场景结合的信息抽取和文档理解,GPT-4V 同样表现优异。例如,提问图中商品价格,GPT-4V 会首先分析自然场景中有多少此类商品,然后再账单图像中根据总价和商品数量计算出商品单价,最终得到自然场景中的商品总价,使用端到端的形式解决图像文档处理问题。


