Loading...

文档布局分析的图方法

大模型10个月前发布 智源社区
304 0 0

A Graphical Approach to Document Layout Analysis

Jilin Wang, Michael Krumdick, Baojia Tong, Hamima Halim, Maxim Sokolov, Vadym Barda, Delphine Vendryes, Chris Tanner
[Kensho Technologies & Meta & Google]

文档布局分析的图方法

  • 动机:世界上大量的信息都存储在PDF文档中。然而,PDF文件并不总是包含关于对象之间关系的信息,这对于理解文档的结构至关重要。尽管PDF文件包含对其内容的明确、结构化的表示,但将这些内容正确地结构化为人工可解释的类别仍然是一个挑战性的问题,这就是文档布局分析(DLA)的核心。

  • 方法:提出一种新的DLA问题的表述方式,将每个PDF页面表示为一个结构化的图,并将DLA问题框定为图分割和分类问题。引入基于图的布局分析模型(GLAM),一个与最先进的DLA模型竞争的轻量图神经网络,同时比现有的模型小一个数量级。

  • 优势:GLAM模型在两个具有挑战性的DLA数据集上与最先进的模型相媲美,同时比现有的模型小一个数量级。特别是,具有400万参数的GLAM模型在DocLayNet数据集的11个类别中的5个类别上超过了领先的140M+参数的计算机视觉模型。这两个模型的简单集成在DocLayNet上实现了新的最先进水平,将mAP从76.8提高到80.8。总的来说,GLAM比最先进的模型高效5倍以上,使GLAM成为DLA任务的理想工程选择。

提出一种新的文档布局分析方法,通过将PDF页面表示为结构化的图,并引入一种轻量图神经网络模型GLAM,实现了与最先进模型的竞争性能,同时具有更小的模型大小和更高的效率。

https://arxiv.org/abs/2308.02051 

文档布局分析的图方法
文档布局分析的图方法
文档布局分析的图方法

© 版权声明

相关文章

暂无评论

暂无评论...