为弥补UniOne在教育场景的覆盖缺失,我们进一步推出了UniOneEdu数据集,并且在该数据集上组织了一系列实验实验,主要贡献有以下几点:
UniOneEdu 数据集涵盖313 页手写理工科笔记、288 页扫描文档、418 页教学课件以及 1091 页试题试卷,在 11 类版面语义元素的基础上,完成了 30,712 个段落级标注,并进一步细化为 43,695 行的行级标注。标注内容涵盖标题、作者、章节、表格、图片、数学公式及正文文本等关键版面要素;此外为支持后续子任务中的版面还原,特别标注了文档的逻辑阅读顺序,为实现结构化理解与重建提供了基础保障。
对YOLOv8和DocLayout-YOLO主流网络模型进行了系统评估,对比了它们在版面分析任务中的表现。值得强调的是,由于UniOneEdu携带行级标注,所以是可以做文本行检测任务的,本文开展了针对手写数学公式文本行的检测任务。据本文所知,目前国内针对手写数学公式文本行检测的系统研究工作较少,而这类文档在教学笔记和试卷等教育场景中具有广泛存在的价值。因此,这部分研究数据不仅填补了该领域的研究空白,也为后续手写数学文档的结构化理解和自动分析提供了坚实的数据基础与方法支撑。
此外,UniOneEdu数据集及相关模型、权重文件全开源,希望借助能够促进该领域的进一步发展。
计划2025年5月全量开放数据集及模型权重文件!


