DocFEE:开启中文金融事件抽取新征程,助力金融智慧决策

【字体: 时间:2025年05月11日 来源:Scientific Data 5.8

编辑推荐:

  在金融领域,传统金融事件识别与建模依赖专家,效率低、成本高。研究人员开展 “文档级中文金融事件抽取” 研究,构建了 DocFEE 数据集。结果显示该数据集能提升金融事件提取效果,对金融建模和自然语言处理研究意义重大。

  在金融投资决策和风险管理中,金融事件建模至关重要。它不仅关乎金融机构的稳定与发展,还影响着金融市场乃至全球经济的安全与可持续发展。例如,股权冻结事件会严重冲击公司运营和股东价值,这就凸显出及时、有效决策的紧迫性。金融事件抽取作为金融事件建模的基石,旨在从自然语言文本中精准识别和提取金融事件的关键信息,包括事件类型、参与者、时间、地点等,这些信息对于风险监测、量化评估、决策支持以及构建知识图谱意义非凡,而知识图谱又是后续事件建模和预测的重要基础。
然而,传统的金融事件抽取主要依靠人工完成,金融专家需耗费大量精力去理解和分析金融文档,提取各类预设事件。这一过程高度依赖专家的金融知识和行业经验,不仅成本高昂、效率低下,还容易受到主观决策偏差的影响。随着机器学习和深度学习算法的兴起,自动化方法为解决这些问题带来了希望。自然语言处理技术的进步,使得从非结构化文本中自动提取和建模金融相关事件成为可能,为主动风险预警和趋势预测奠定了基础。但现有金融领域文档级事件抽取的数据集存在缺陷,无法反映真实场景中长文本依赖的挑战。实际的金融领域文本,如公司公告、研究报告等往往篇幅冗长,事件参数分散在多个句子中,而现有数据集未能充分考虑这些问题,在捕捉真实场景中事件参数的跨度和复杂性方面表现欠佳。

为了解决这些问题,中国科学院自动化研究所复杂系统认知与决策智能重点实验室、中国科学院大学人工智能学院等机构的研究人员开展了深入研究。他们提出了 DocFEE(Document - level Chinese Financial Event Extraction)这一大规模文档级中文金融事件抽取数据集,并设计了相应的分层标注管道 HAC - Ann(Human - AI Collaborative training data Annotation framework)。研究结果表明,DocFEE 数据集在提升金融事件的有效识别、量化和建模能力方面效果显著,同时也推动了自然语言处理领域长文本理解的发展。该研究成果发表在《Scientific Data》上。

研究人员在开展研究时,运用了多种关键技术方法。在数据收集方面,从东方财富网收集 2020 年 1 月至 2024 年 4 月中国上市公司的公告,并进行预处理。在标注过程中,采用了 HAC - Ann 框架,结合大语言模型(LLM)和人工专家的优势,通过初始集标注、规则和模型过滤、超生成标注以及人工迭代优化等步骤完成标注。在评估数据集有效性时,使用监督学习范式,选取 BERT_Tagging、BART_QA、LLM_SFT 等多种基线方法进行实验。

下面来详细看看研究结果。

  • 任务范式与事件模式:研究聚焦于从公司公告中进行文档级金融事件抽取,将任务定义为读取长文本并获取特定目标事件及其参数。DocFEE 数据集涵盖 9 种金融事件类型,如破产清算(Bankruptcy Liquidation)、重大安全事故(Major Safety Incident)等,针对每种事件类型设计了相应的 38 种参数。这些事件类型基于上市公司信息披露准则确定,对金融建模意义重大。
  • 数据收集与处理:从东方财富网收集公告后,依据网站提供的标签进行预筛选,排除不包含目标事件的内容,然后从 PDF 文档中提取纯文本。
  • 标注过程:采用高效的人机协作标注工作流程。首先进行初始集人工标注,制定详细的标注指南和标准示例,招募并培训专业人员进行标注,通过共识机制确保标注质量。接着,利用规则和基于大语言模型的方法依次过滤无关文档,减少后续标注成本。之后,运用自动优化超生成策略进行大规模自动标注,通过启发式规则和共识过滤机制提高标注数据质量。最后,进行人工迭代优化,根据自动标注结果的错误类型,手动调整大语言模型的指令和示例,提升标注质量。
  • 统计信息:DocFEE 数据集包含 19,044 个条目,平均文档长度为 2277.25 个汉字,平均每个文档包含 1.86 个事件,事件参数跨度平均为 960.06 个汉字。与以往数据集相比,该数据集在文档长度、事件数量和事件参数跨度等方面都有显著提升,更具现实挑战性。从文档角度看,其标注方法独特,长度和事件数量均高于以往数据集。从事件角度分析,不同事件类型在文档长度、参数跨度、出现频率和共现模式上各有特点,例如高级管理人员死亡(Senior Executive Death)等事件多在短公告中出现,而重大资产损失(Major Asset Loss)的公告较长且参数跨度大;股权冻结(Equity Freeze)常与破产清算等事件同时出现。
  • 技术验证:通过专家人工评估和算法性能测试验证数据集的可信度和有效性。人工评估显示,数据集的标注准确率达到 84.04%,远高于直接使用 GPT - 3.5 - turbo 进行标注的 61.05%,且标注成本仅为纯人工标注的 0.4%。对自动标注过程的可靠性评估表明,Cohen’s Kappa 系数为 0.78,显示出较高的一致性。在有效性方面,使用不同规模的 DocFEE 数据集训练多种基线方法,结果表明随着训练数据量增加,各方法性能逐步提升,证明了该数据集的有效性。

研究结论和讨论部分强调,DocFEE 数据集的构建为金融事件抽取提供了更具现实挑战性的大规模数据集,推动了金融事件建模的优化和提升。同时,其独特的标注流程和丰富的统计信息,为自然语言处理领域长文本理解的研究提供了宝贵资源和新的研究思路。这一研究成果不仅有助于金融机构更高效地进行风险监测和决策支持,还为相关领域的学术研究开辟了新方向,在金融和自然语言处理交叉领域具有重要的理论和实践意义。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号