
-
生物通官微
陪你抓住生命科技
跳动的脉搏
面向学术数据处理的多学科多模态对齐数据集
【字体: 大 中 小 】 时间:2025年02月05日 来源:Scientific Data 5.8
编辑推荐:
论文旨在解决现有学术数据处理数据集在多模态数据整合方面的不足,尤其是对视觉元素重视不够的问题。研究团队构建了多学科多模态对齐数据集(MMAD),通过整合大量学术论文的文本、元数据和视觉数据,为学术数据处理提供了更全面、更丰富的资源。该数据集不仅规模庞大,涵盖多学科领域,而且创新性地将视觉数据与文本数据进行精准对齐,极大地拓展了学术数据处理的边界,为诸如研究趋势分析、引文推荐、自动图注生成等任务提供了有力支持。
在学术研究领域,数据处理是挖掘知识、洞察学术发展趋势的关键环节。上海人工智能研究院有限公司(Shanghai Artificial Intelligence Research Institute Co., Ltd.)的研究人员 Haitao Song、Hongyi Xu、Zikai Wang 等在《Scientific Data》期刊上发表了名为 “A Multidisciplinary Multimodal Aligned Dataset for Academic Data Processing” 的论文。这一成果为学术数据处理带来了新的曙光,在多学科研究、多模态数据融合分析等方面具有重要意义,为后续学术研究的开展提供了丰富的数据资源和新的研究思路。
论文旨在解决现有学术数据处理数据集在多模态数据整合方面的不足,尤其是对视觉元素重视不够的问题。研究团队构建了多学科多模态对齐数据集(MMAD),通过整合大量学术论文的文本、元数据和视觉数据,为学术数据处理提供了更全面、更丰富的资源。该数据集不仅规模庞大,涵盖多学科领域,而且创新性地将视觉数据与文本数据进行精准对齐,极大地拓展了学术数据处理的边界,为诸如研究趋势分析、引文推荐、自动图注生成等任务提供了有力支持。
在当今学术环境中,学术数据处理(ADP)在科学计量学和文献计量学中占据重要地位。这些领域专注于科学文献的定量分析,通过 ADP 可挖掘文献中的关键信息,为研究趋势分析、推荐系统、内容生成等提供支撑 。然而,当前 ADP 主要集中于文本数据处理,忽视了学术文献中视觉元素(如图表、表格)蕴含的丰富信息。视觉元素能直观呈现复杂数据和研究结果,但现有研究对其利用不足,缺乏有效方法将视觉数据与文本描述精准对齐,限制了学术数据处理的深度和广度。
早期学术数据处理数据集很少包含图像数据。近年来,虽有 SCICAP、ACL - FIG、Uni - SMART 等项目开始利用视觉数据,但存在明显局限性。SCICAP 聚焦计算机科学领域,ACL - FIG 主要针对计算语言学和自然语言处理,这些数据集的领域范围狭窄,无法满足跨学科研究需求,阻碍了通用 ADP 工具的开发和应用。因此,开发一个涵盖多学科、整合多模态数据的数据集迫在眉睫。
MMAD 数据集包含 110 多万篇开源论文,这些论文基于 CC BY、CC BY - NC、CC BY - SA、CC BY - NC - SA 和 CC0 等许可协议获取。研究人员通过数字对象标识符(DOI)从多个科学领域的开放平台获取论文全文(PDF 格式),利用 S2ORC - DOC2JSON 工具提取论文元数据,缺失部分则借助 CrossRef API 补充完善。
PDF 文件获取与存储:直接从指定开放平台获取 PDF 文件并存储,不进行预处理。
元数据提取:以 S2ORC - DOC2JSON 工具为主,CrossRef API 为辅,确保元数据的完整性和准确性。
视觉信息处理:运用 PyMuPDF 工具包中的‘fitz’模块将 PDF 文件转换为 PNG 格式,同时提取文本块信息;利用预训练的 YOLOv5 模型识别并提取图表、表格及其位置信息。
图注提取:通过计算欧氏距离确定图表最近的文本块,将其内容作为图注,并添加到 JSON 文件中。
描述性上下文提取:借助 Grobid 机器学习库提取 PDF 文档段落,运用正则表达式将图注与描述性上下文精准匹配。
数据管理:依据 DOI 对文件命名和存储,PDF 文件、元数据(JSON 格式)和视觉信息(PNG 格式)分别存储在指定文件夹中,构建出清晰的数据集结构。
研究过程中运用多种关键技术实现多模态数据的整合与处理。YOLOv5 模型在视觉信息提取中发挥核心作用,精准识别图表和表格;Grobid 库在文本处理方面能力突出,有效提取和整理文档段落;CrossRef API 用于补充和验证元数据,保障数据的准确性和完整性。这些技术相互配合,构建出 MMAD 数据集,为后续研究奠定坚实基础。
与其他 ADP 数据集相比,MMAD 具有显著优势。其一,规模庞大,包含超 100 万个样本,每个样本包含 PDF 文档、JSON 文件和 PNG 图像文件。其二,学科覆盖广泛,涵盖医学、数学、计算机科学等众多领域,学科分布多样。其三,内容对齐精准,能将视觉内容与图注、描述性文本精确匹配,并存储于 JSON 文件,为多模态数据分析提供丰富信息。
研究人员从数据集中随机抽取 1000 篇论文作为测试样本,包含 15733 页图像文件,实际图表 9091 个。经检验,YOLOv5 模型识别图表的召回率达 94.91%,精确率达 98.08% 。此外,对图表与图注匹配成功率的随机抽样人工验证显示,100 次抽样(约 5000 - 7000 个图表 - 图注对)的准确率为 93.47%(95% CI:93.35% - 93.59%),表明 MMAD 数据集中视觉与文本对象识别及匹配的准确性较高。
通过与 SCImago 的对比分析评估 MMAD 数据集的质量。实验 1 选取 2022 年论文,计算 MMAD 和 SCImago 中各国 / 地区出版物排名的皮尔逊相关系数,结果为 0.933,表明两者排名呈强正相关。实验 2 运用最小二乘法建模,得到线性关系方程,进一步证明 MMAD 排名的可靠性。实验 3 分析阿根廷和巴基斯坦 2013 - 2022 年学术出版物排名趋势,其与 SCImago 数据高度吻合,有力证明了 MMAD 数据集的全面性和代表性。
针对文本与视觉信息对齐质量评估难题,研究团队提出基于大语言模型(LLM)的方法,利用 GPT - 4 评估 MMAD 数据集。将测试集分为完全相关、文章相关和不相关三组,每组 100 个样本,精心设计评估提示和评分标准。为验证 GPT - 4 评估可靠性,从三组中各抽取 30 个样本,由专家和 GPT - 4 分别评分,对评分进行归一化处理后分析相关性。结果显示,各小组中专家评分与 GPT - 4 评分趋势线高度一致,证明 GPT - 4 评估的可靠性。同时,GPT - 4 对不同相关性样本的评分差异明显,完全相关组得分最高,文章相关组次之且分数波动大,不相关组得分最低,充分体现其对文本与视觉信息相关性的准确判断能力,也表明 MMAD 数据集中视觉与文本信息匹配度高,文本内容完整、简洁。
本研究成功构建多学科多模态对齐数据集 MMAD,其规模大、学科覆盖广、内容对齐精准,有效弥补现有学术数据处理数据集的不足。通过多种实验验证了 MMAD 数据集的质量和可靠性,在视觉与文本对象识别、国家 / 地区分布代表性以及文本与视觉信息对齐质量等方面表现出色。基于 LLM 的评估方法为数据集质量评估提供了创新途径,展现出 GPT - 4 在复杂数据集评估中的潜力。
MMAD 数据集为学术数据处理开辟了新方向,推动多学科交叉研究发展。在经典 ADP 任务(如文档摘要、图注生成)中,提供更丰富数据支持,提升任务效果。在跨学科研究方面,促进不同学科数据融合分析,挖掘潜在研究价值。在生成式任务中,借助多模态生成模型,可基于论文元数据和视觉数据生成图表、图注,提升学术写作和研究展示水平。在预测任务中,通过分析学术论文特征构建预测模型,评估新发表内容的研究影响力,为学术研究提供前瞻性指导。
MMAD 数据集存在一定局限性。学科间论文数量分布不均衡,可能导致研究结果偏差;YOLO - V5 模型的检测精度有限,部分图像识别不准确,且数据集中缺少论文全文。未来研究可针对这些问题改进,如优化数据集构建框架,平衡学科数据;提升图像识别技术精度;逐步将论文结构化文本内容纳入数据集。此外,可探索 Chain - of - Thought(CoT)推理等方法,优化基于 LLM 的评估流程,进一步提升 MMAD 数据集的质量和应用价值,为学术数据处理领域的持续发展注入新动力。