基于高斯过程二元分类器的XXL巡天星系团分类研究:在不确定标签数据上的创新应用
《Monthly Notices of the Royal Astronomical Society》:The XXL Survey: LV; Galaxy cluster classification from the XXL X-ray source catalogue using a Gaussian process binary classifier trained on imperfectly labelled data
【字体:
大
中
小
】
时间:2025年10月22日
来源:Monthly Notices of the Royal Astronomical Society
编辑推荐:
本研究针对X射线巡天中星系团候选体识别面临的挑战,开发了一种能够处理训练数据标签不确定性的高斯过程(GP)二元分类器。研究人员利用XXL巡天X射线源目录,通过排除传统分类使用的两个X射线参数(EXT和EXT_STAT),训练模型识别新的星系团候选体。应用该分类器到XXL北天目录获得了623个候选源,恢复了标准XXL方法先前识别的248个星系团中的225个。通过光学选择的独立星系团样本验证,确认了271个星系团候选体,其中95个是XXL流程未选择的新发现。这些新发现的候选体往往展现出与以往XXL选择不同的X射线形态特征,为研究不同演化阶段的星系团提供了宝贵样本。该方法为未来大规模巡天项目(eROSITA、Euclid等)的源分类提供了新思路。
在宇宙学研究中,星系团作为宇宙中最大的引力束缚体系,承载着揭示宇宙结构和演化历史的重要使命。然而,准确识别这些宇宙"巨人"并非易事——不同波段的观测手段各具特色,也各有局限。X射线观测通过探测星系团内热 intracluster medium (ICM)的辐射,为识别星系团提供了直接证据,但传统的选择方法往往只能捕捉到那些形态规则、演化成熟的星系团,而那些形态不规则、处于合并或形成阶段的年轻星系团则容易被遗漏。
XXL (XMM-Newton XXL)巡天作为一项重要的X射线观测项目,面临着这样的挑战。其标准处理流程通过核心半径(EXT)和延展似然(EXT_STAT)两个参数的简单切割来筛选星系团候选体,虽然能够保证高纯度(95%的C1样本),但不可避免地会错过许多真实的星系团,特别是那些不符合典型β模型表面亮度分布的体系。随着eROSITA、Euclid等新一代大规模巡天项目的到来,开发更高效、更全面的星系团识别方法变得尤为迫切。
在这项发表于《Monthly Notices of the Royal Astronomical Society》的研究中,研究人员创新性地将高斯过程(Gaussian Process, GP)二元分类器应用于XXL巡天数据,特别针对训练数据标签不确定性的问题进行了算法改进。他们意识到,天文学中的训练数据往往没有完美的"金标准"标签,而是通过各种间接证据估计的纯度值。为此,他们开发了一种能够融合这种不确定性信息的GP分类器,让机器学习模型能够更智能地从不完美的训练数据中学习。
研究团队使用的关键技术方法包括:基于XMM-Newton观测数据的XXL X射线源目录(版本4.3)处理,通过XAMIN管道对每个源进行四种表面亮度模型拟合;高斯过程二元分类器的构建与训练,采用径向基函数(RBF)核和期望传播(expectation propagation)算法;自动相关性确定(Automatic Relevance Determination, ARD)技术用于识别关键参数;以及通过CAMIRA光学星系团目录和GAMA光谱巡天进行独立验证。特别值得注意的是,为了确保模型不是简单地复制现有的XXL选择标准,研究人员刻意排除了EXT和EXT_STAT这两个最关键的传统分类参数。
研究基于XXL巡天北天和南天两个25平方度区域的X射线源目录,分别包含23,626和18,069个经过质量筛选的源。每个源通过XAMIN管道拟合了四种表面亮度模型,对应不同的天体物理场景:单点源(PNT)、双点源(DPT)、单延展源(EXT)以及点源加延展源(PEX)模型。研究人员选择了19个与星系团识别相关的参数作为分类器输入,并对数据进行了标准化处理。
研究的核心创新在于对标准GP二元分类器的改进,使其能够处理基于样本纯度的不确定标签。传统XXL分类将源分为C1(纯度0.95)、C2(纯度0.5)和非C1C2(纯度约0)三类,研究人员将这些纯度值作为每个源被标记为星系团的先验概率。通过蒙特卡洛方法对可能的标签组合进行采样,解决了直接计算所有可能组合(2N种)的计算复杂性问题。
将训练好的分类器应用于XXL北天目录,获得了每个源的"置信度值"。通过设定0.1的置信度阈值,选择了623个星系团候选体,其中包括136个C1源(总139个)、89个C2源(总109个)以及398个非C1C2源。为验证结果,研究团队进行了广泛的视觉检查,并利用CAMIRA光学星系团目录和GAMA星系群目录进行交叉验证。
通过自动相关性确定(ARD)技术,研究发现EXT_RATE_PN和PNT_RATE_PN是影响分类器输出的最关键参数,分别代表用延展模型和点源模型拟合PN探测器数据的计数率。当使用南天目录训练时,EXT_RATE_MOS和PNT_RATE_MOS也变得重要,这可能反映了两个观测场之间的固有差异。
视觉检查结果显示,GP选择的样本整体纯度为0.47±0.02,低于传统C1样本的纯度(0.89±0.03)但显著高于随机选择。特别值得注意的是,在非C1C2源中,高置信度的源有19%被确认为真实的星系团候选体,这些源通常展现出与典型C1星系团不同的X射线形态特征。
研究结论表明,这种基于高斯过程的分类方法能够有效补充传统XXL处理流程,识别出那些被标准方法遗漏的星系团候选体。新发现的候选体往往具有更复杂的X射线形态,可能是处于不同动态演化阶段的系统,这为研究星系团的形成和演化提供了更全面的样本。
讨论部分强调了该方法在处理训练数据不确定性方面的创新价值,以及在天文学大数据时代的应用潜力。特别是面对eROSITA、Euclid等新一代巡天项目产生的海量数据,这种能够融合多波段信息、处理不完美标签的机器学习方法将发挥重要作用。同时,研究也指出,分类器在不同观测场表现出的细微差异提醒我们,在实际应用中需要考虑观测条件、银河前景等因素的影响。
这项研究不仅为XXL巡天提供了有价值的星系团候选体补充样本,更重要的是展示了一种适用于天文学数据特点的机器学习框架,为未来大规模天体分类任务提供了技术储备。随着多波段天文学数据的不断积累,这种能够智能处理不确定标签、融合多维度信息的分类方法,有望在星系团普查、宇宙学参数限制等前沿研究中发挥越来越重要的作用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号