VALSE 2023:版面分析技术如何赋能生产生活?
2023VALSE年度研讨会在无锡召开,语言文字理解是其中的重要议题,合合信息作为金牌宣讲企业对文本处理中的版面分析进行了深度分析,让我们看看其中的细节吧~
0 写在前面
VALSE年度研讨会旨在为中国青年学者在计算机视觉、图像处理、模式识别与机器学习研究领域提供一个具有深度的学术交流平台。VALSE秉持理性批判、勇于探索、实证和创新等科学精神,倡导自由平等的原则,鼓励学术界各方在纯粹理性的氛围下进行百家争鸣和思想碰撞,促进国内青年学者之间的思想交流和学术合作,以在相关领域做出重要学术贡献,并提升中国学者在国际学术舞台上的影响力。
在VALSE年度研讨会中,一个很重要的议题是语言文字识别与理解,语言文字识别与理解在日常生活中有广泛的应用,例如
- 语音助手与智能音箱
- 语音转写与字幕
- 机器翻译
- 社交媒体和文本分析
- 智能客服与自动回复
- …
可以说是涵盖了通信、娱乐、学习、工作和社交等各个领域,为我们提供了更加便利和智能化的体验
在本次VALSE年度研讨会中,合合信息作为金牌企业参与宣讲,向我们详细地介绍了版面分析技术。版面分析技术在智能文档处理中扮演着重要的角色,它用于对文档的布局、结构和格式进行自动识别和分析。通过理解文档的版面信息,智能文档处理系统可以更好地处理和解析文档内容,提高文档的自动化处理效率和准确性。接下来,让我们详细看看版面分析技术如何赋能生产生活。
1 文档版面分析
文档版面分析即对文档图像按照不同的语义功能及区域类别进行分割和识别,分割出文本区、表格区、公式区、图形区等区域,并判断各区域所属的类别。
文档版面分析中还有两个基础的重要概念,一个是物理版面(Physical Layout),即文档在视觉上可见的外观和布局,包括页面的大小、页面边距、页眉页脚、文本框的位置和大小等与文档视觉呈现相关的元素。物理版面的分析有助于对文档进行可视化处理、重构和呈现;另一个是逻辑版面(Logical Layout),即文档的结构和组织方式,独立于具体的视觉呈现。它关注的是文档中各个元素之间的关系和层次结构,例如标题、段落、列表、表格等。逻辑版面的分析可以帮助系统理解文档的内容和结构,从而进行文本解析、数据提取和语义分析等任务。
针对版面分析问题,虽然在近年来在学术界涌现出一批能够取得较好效果的方法,但是仍然在业界难以进行产品化和商业化,其仍然面临着如下的挑战:
-
高质量、高包含度的有效数据集的缺乏。深度学习需要输入大量数据进行训练。但版面分析领域这个问题尤为严重,比如对历史文献等古籍的版面分析,这些古籍跨越了几个世纪,有不同的书写载体、书写工具、语言、文字、字体、装饰品、插图等。这些都给版面分割带来一定的难度。合合信息在古籍处理方面也有一定成果,可以看焕新古文化传承之路,AI古彝文识别
-
实时性模型结构的设计方案缺失。一般在商业化过程中,需要对模型的实时性和精度有着较高的要求。但目前还没有一种非常通用的、能够满足各种定制化需求的、且能对应于各个商用特点进行精度和实时性满足需求的模型建模方法
-
文档的具体内容边界模糊,需要人工矫正判定。例如文章中的摘要部分和正文段落部分具有十分模糊的界定边界,可能因为错误评判或者错误标记的方式造成某些样本之间的标签输出是具有先验偏差。因此,如何保证数据集的无偏性或尝试在建模过程中消除该种偏差性,也是在建模过程中不可避免的挑战之一
-
…
近年来,针对版面分析领域的研究主要还是延续目标检测的研究分析路线进行。在深度学习相关的目标检测领域中,通常把建模过程分为以YOLO系列和SSD系列为代表的one-stage
和以Fast-RCNN和Mask-RCNN为代表的two-stage
两种形式。使用one-stage
的方法和two-stage
的方法在任务的实时性上相差无几,因为目标的位置相对固定,而two-stage
的RPN网络却能够给整体效果带来非常大的提升。因此,过去以two-stage
的模型结构居多。在two-stage
的基础上,版面分析领域发展出了许多新的方法。从研究方法论上看,这些方法可以分为自底向上方法、自顶向下方法和混合型方法等。从模型结构上看,又可以分为基于RPN网络的方法、基于金字塔网络的方法和基于残差的方法等
2 版面元素检测
版面元素检测也可以理解为一个图像语义分割问题。目前主流的语义分割方法是采用特征图先缩小后恢复的方法,如 U-Net、DeconvNet等语义分割网络先通过对图像的卷积和池化操作得到低分辨率的特征图,再通过上采样或反卷积将特征图恢复到高分辨率。但是这种方法存在一个缺点就是图像从高分辨率到低分辨率的过程中会损失信息,为了解决这个问题,2019年提出的HRNet(High Resolution Network)可以使图像在一个分支上始终保持高分辨率的同时,并行地对特征图进行下采样产生低分辨特征图,各个分辨率分别一个分支,然后各个分支不同分辨率特征图之间不断地进行特征融合来产生强大的高分辨率表示,从而使最终得到的特征图具有丰富的上下文信息,进一步提高了网络的分割准确率。
在合合信息介绍的版面元素检测网络中,一个很重要的组件就是注意力模块。注意力机制的目的在于在进行卷积神经网络的区域性搜索时,能够对于不同区域块的像素特点,在进行每一个卷积层赋值之前给予特定的权重,以保证搜索过程中对于需要检测的目标能够得到预标注的过程。
Scale & Spatial Attention Module(SSAM)可以用于版面元素检测任务,以提高神经网络对不同尺度特征的感知和关注能力。在计算机视觉任务中,不同尺度的特征对于实现准确的目标检测、图像分割和图像分类等任务非常重要。传统的卷积神经网络(CNN)在较浅层次的特征图上提取较为细节的特征,而在较深层次的特征图上提取更为抽象的特征。然而,由于不同尺度特征之间的信息流动有限,网络可能无法充分利用不同尺度特征的相关性。
SSAM模块则可以自动学习不同尺度特征之间的相关性,并根据这些相关性调整特征的权重。具体而言,SSAM模块首先将输入的特征图分解成多个尺度的子特征图。接着,对于每个尺度的子特征图,通过计算注意力权重来衡量其在整体特征中的重要性。这可以通过使用卷积或全连接层来实现,将特征图转换为注意力权重图。最后,根据计算得到的注意力权重,对不同尺度的子特征图进行加权融合,得到最终的特征表示。这可以通过加权求和或者使用注意力机制来实现。
3 文档排版引擎
合合信息提出的文档排版引擎如下所示
首先从文档图像中抽出四部分嵌入向量:
- 字符嵌入(Character embedding):将每个字符表示为一个向量的过程,通过将字符映射到一个连续的向量空间中,使得具有相似语义或上下文关系的字符在向量空间中更加接近
- 文本行嵌入(Textline embedding):将整个文本行表示为一个向量的过程。通过将文本行中的所有字符的嵌入向量进行聚合,可以捕捉到整个文本行的语义和上下文信息
- 段落嵌入(Paragraph embedding):将整个段落表示为一个向量的过程。通过将段落中的句子或文本行的嵌入向量进行聚合,可以捕捉到段落的整体语义和上下文信息
- 关系嵌入(Relation embedding):将文本中不同元素之间的关系表示为向量的过程。这些元素可以是词语、句子、文本行或段落等。通过学习元素之间的关系嵌入,可以捕捉到它们之间的语义关联性和相互作用。这对于解决文本关系分析、语义关系建模和知识图谱构建等任务非常有用
接着,将这些嵌入向量送入Transformer中,为了介绍Transformer,首先先需要了解编解码的概念。在 NLP 领域,人们使用语言一般包括三个步骤:
接受听到或读到的语言 -> 大脑理解 -> 输出要说的语言。
语言是一个显式存在的东西,但大脑是如何将语言进行理解、转化、存储的,则是一个目前仍未探明的东西。因此,大脑理解语言这个过程,就是大脑将语言编码成一种可理解、可存储形式的过程,这个过程就叫做语言的编码。相应的,把大脑中想要表达的内容,使用语言表达出来,就叫做语言的解码。在语言模型中,编码器和解码器都是由一个个的Transformer组件拼接在一起形成的
具体到文本排版,就是将输入嵌入向量的多帧序列转化成一个固定长度的背景向量,完成编码工作,将生成的固定长度的向量再通过一定的方式转化为对应的输出字母序列,完成解码工作
而在这种模型中,输入的嵌入向量往往是一个包含多帧图像的序列,在进行编码解码工作时,要想从输入的一系列信息中关注到与图像对应的输出最相关的显著区域,显然是很困难的。近年来,注意力机制被广泛的应用在图像识别和NLP领域
举例:将"who are you"翻译为"你是谁",传统的模型处理方式是一个seq-to-seq的模型,其包含一个encoder端和一个decoder端,其中encoder端对"who are you"进行编码,然后将整句话的信息传递给decoder端,由decoder解码出"我是谁"。在这个过程中,decoder是逐字解码的,在每次解码的过程中,如果接收信息过多,可能会导致模型的内部混乱,从而导致错误结果的出现。而在生成"你"的时候和单词"you"关系比较大,和"who are"关系不大,所以我们更希望在这个过程中能够使用Attention机制,将更多注意力放到"you"上,而不要太多关注"who are",从而提高整体模型的表现
Transformer输出的结果将用传统的机器学习方法进行分析,以还原段落属性。例如,通过回归任务来预测或估计文本中字符的尺寸大小,字号大小是指文本中字符的相对尺寸,通常以点数(pt)表示;通过回归任务来预测或估计文本行之间的垂直间距和首行缩进的大小,行间距是指文本行与上一行或下一行之间的垂直距离,而首行缩进是指段落中首行相对于左侧边界的缩进量,通过行间距回归,可以控制文本的排版风格和格式;通过分类任务来确定文本行的对齐方式,行对齐方式可以是左对齐、右对齐、居中对齐或两端对齐等,通过行对齐分类,可以自动确定文本行的对齐方式,从而提升文本的可读性和整体外观;通过分类任务来确定段落中文本的对齐方式,与行对齐类似,段落对齐方式可以是左对齐、右对齐、居中对齐或两端对齐等;通过分类任务来识别文档中的不同分栏结构,版面分栏可以将文本内容分为多列,如报纸或杂志中的版面设计,通过版面分类,可以自动检测和识别文档中的分栏结构,有助于后续的排版和布局。
文档还原的数据流如下所示
下面是几个文档还原的实例
总结
目前,合合信息提供了关于版面检测、还原的系统级解决方案:涉及文字检测识别,版面元素检测识别,图层分离,排版布局等一系列深度学习模型,并需要通过合理的方式糅合各个模块,搭配文档渲染,最终生成可供用户编辑修改的Word/Excel文档,具有非常巨大的应用价值。
合合信息的智能文字识别应用开发宗旨就是为了让世界更高效!合合信息深耕人工智能17年,享有国内外发明专利113项,在顶级AI竞赛获得15项世界冠军,为30个行业提供智能解决方案。合合信息打造了深受全球用户喜爱的效率工具,例如C端的名片全能王、扫描全能王等。相信合合信息会在模式识别、深度学习、图像处理、自然语言处理等领域的深耕厚积薄发,用技术方案惠及更多的人。
为武汉地区的开发者提供学习、交流和合作的平台。社区聚集了众多技术爱好者和专业人士,涵盖了多个领域,包括人工智能、大数据、云计算、区块链等。社区定期举办技术分享、培训和活动,为开发者提供更多的学习和交流机会。
更多推荐
所有评论(0)