基于自监督预训练的射电星系Fanaroff-Riley形态分类研究及其在RGZ数据集中的应用

《Monthly Notices of the Royal Astronomical Society》:Radio Galaxy Zoo: Morphological classification by Fanaroff-Riley designation using self-supervised pre-training

【字体: 时间:2025年11月08日 来源:Monthly Notices of the Royal Astronomical Society

编辑推荐:

  本研究针对海量射电巡天数据中星系形态自动分类的挑战,利用自监督学习(SSL)预训练的射电星系基础模型,对Radio Galaxy Zoo(RGZ)项目中的14,000余个射电星系进行了Fanaroff-Riley(FR)形态分类。研究人员通过微调预训练模型,成功对约5,900个FRI类和8,100个FRII类星系进行了分类,发现FRI与FRII在光度-尺寸分布上存在显著重叠区域,且模型在此区域的分类置信度最低,表明这些源的形态确实更为模糊。研究还证实了低光度FRII源的存在,其比例与先前研究一致,但通过与LOFAR LoTSS DR1巡天数据的交叉比对,发现分类方法的差异会影响样本选择。该工作强调了在自动化天文源识别与分类中,训练数据的选择对模型输出及后续分析具有重要影响,为未来SKAO等大型巡天项目的自动化处理提供了重要参考。

  
在当今天文学领域,我们正处在一个数据爆炸的时代。诸如维拉·C·鲁宾天文台(Vera C. Rubin Observatory)和平方公里阵列射电望远镜(SKAO)等大型巡天项目,每天都将产生海量的观测数据。面对如此庞大的数据洪流,传统的人工分类方法已显得力不从心,发展自动化、智能化的数据处理算法成为必然趋势。其中,射电星系的形态分类,尤其是经典的Fanaroff-Riley(FR)二分法,是天体物理学中研究活动星系核(AGN)喷流特性、中心黑洞活动及其与周围环境相互作用的重要手段。
经典的Fanaroff-Riley二分法将射电星系分为两类:FRI类星系,其最亮区域靠近核心;FRII类星系,其最亮区域(通常为热斑)位于远离核心的瓣状结构中。早期研究认为FRI和FRII在射电光度上存在一个清晰的界限。然而,近年的多项研究逐渐揭示,这两类星系的光度-尺寸分布存在着大量的重叠,传统的清晰分界可能并不存在,且存在相当数量的低光度FRII源,这对基于喷流动力学的模型提出了挑战。因此,利用现代机器学习技术,特别是能够充分利用大量未标记数据的自监督学习(Self-Supervised Learning, SSL)方法,对大规模射电星系样本进行精确、一致的FR分类,对于深化理解射电星系的本质、演化及其物理机制具有至关重要的意义。
在此背景下,由Nutthawara Buatthaissong等人组成的研究团队在《Monthly Notices of the Royal Astronomical Society》上发表了他们的最新研究成果。他们利用来自公民科学项目Radio Galaxy Zoo(RGZ)的大量数据,首次将经过自监督预训练的射电星系基础模型应用于RGZ目录的FR形态分类,构建了一个包含超过14,000个源的大规模分类样本,并对其天体物理性质进行了深入分析。
为了开展这项研究,研究人员主要采用了以下几种关键技术方法:首先是自监督预训练技术,他们采用了Bootstrap Your Own Latent(BYOL)算法,在RGZ Data Release 1(RGZ DR1)目录的大量未标记射电图像上进行预训练,使模型学习到数据中有意义的表示。其次是迁移学习与微调,他们利用MiraBest数据集中经过视觉检查并自信分类的样本(共729个)对预训练好的基础模型进行微调,使其适应FR分类这一特定下游任务。为了评估模型预测的不确定性,他们采用了集成学习策略,通过10次不同的权重初始化进行微调,并以投票分数(Vote Fraction, VF)作为模型分类置信度的度量。在数据预处理与分析方面,他们设定了角尺寸(>21.2角秒)和总流量密度(>0.75 mJy)的阈值以确保源的可解析性,并整合了斯隆数字化巡天(SDSS)的红移数据(包括光谱红移和测光红移)以及WISE红外数据,用于计算光度、物理尺寸和进行宿主星系性质分析。最后,他们通过跨目录交叉匹配,将RGZ FR分类结果与基于LOFAR LoTSS DR1数据的Mingo等人(2019)的FR目录进行比对,以检验不同方法和数据下分类结果的一致性。
4 LUMINOSITY-DISTANCE ANALYSIS
研究人员计算了RGZ FR样本中每个源在1.4 GHz的光度和物理尺寸。分析发现,FRII源覆盖了从低到高的光度和从致密到大的物理尺寸的广泛范围,而FRI源则倾向于聚集在稍低的光度和中等尺寸区域。FRII的平均和中位物理尺寸(0.20 Mpc和0.16 Mpc)略大于FRI(0.18 Mpc和0.16 Mpc)。在光度方面,FRI的平均和中位光度(1.63×1025 W/Hz和5.20×1024 W/Hz)显著低于FRII(1.53×1026 W/Hz和1.52×1025 W/Hz)。最重要的是,研究结果明确显示FRI和FRII的光度-尺寸分布存在显著的重叠区域,这与Fanaroff & Riley (1974)最初提出的清晰分离观点相悖。具体而言,约有15%的FRI源的光度超过了传统的分界光度(~2×1025 W/Hz),而约58%的FRII源的光度低于此分界线,被称为低光度FRII(FRII-Low)。
5 COLOUR ANALYSIS
通过分析WISE卫星在3.4μm (W1)、4.6μm (W2)和12μm (W3)波段的颜色-颜色图,研究人员研究了宿主星系的特性。结果表明,约60%的RGZ FR源位于星形成星系(SFG)区域。87%的FRI分布在W1-W2 < 0.5星等和W2-W3 < 3.4星等的范围内(椭圆星系Ell和星形成星系SFG区域)。而FRII,尤其是高光度FRII(FRII-High),更主导着W1-W2 > 0.5星等(AGN区域)和W2-W3 > 1.6星等的区域。低光度FRII(FRII-Low)的颜色分布则与FRI更为相似,主要位于Ell和SFG区域,这表明低光度FRII的宿主星系性质可能与FRI有相似之处,而与高光度FRII不同。颜色图上也清晰地显示了不同FR类源之间的重叠。
6 RGZ FR VOTE FRACTION: LUMINOSITY DISTANCE AND COLOUR ANALYSIS
模型置信度分析(通过投票分数VF体现)显示,分类结果模糊(VF < 1)的源主要集中在角尺寸较小(21.2-55角秒)、流量密度较低(1-100 mJy)的区域,这恰好是FRI和FRII分布的重叠区。在WISE颜色-颜色图上,VF < 1的源虽然出现在所有区域,但在星形成星系(SFG)区域密度最高,该区域也是FRI和FRII重叠最明显的区域,进一步证实此处是分类的难点。
7 RGZ-LOTSS CROSS-MATCHING
通过将RGZ FR目录与基于LOFAR低频数据的Mingo等人(2019)的LoTSS FR目录进行交叉匹配,研究人员获得了513个共有的源。比较发现,约40%的源在两个目录中的FR分类一致(类匹配源),而约60%的源分类不同(类变化源)。在类变化源中,最显著的特点是大量在RGZ中被分类为FRII的源(特别是低光度FRII)在LoTSS中被分类为FRI或“小”源。这可能是由于LOFAR的低频观测对延展的低表面亮度辐射更敏感,导致源结构呈现差异,以及两个巡天项目的分辨率、灵敏度和分类算法不同所致。尽管如此,RGZ-LoTSS样本在光度-尺寸分布和WISE颜色分布上的总体趋势与整个RGZ FR样本保持一致,重叠现象依然存在。光谱指数分析也提示FRI和低光度FRII可能具有不同的辐射特性。
8 MODEL BIASES
研究还深入探讨了训练数据选择可能带来的模型偏差。预训练阶段的数据选择(如角尺寸阈值)会影响模型在下游任务中的置信度,使用包含更多未分辨源(角尺寸阈值更小)的数据预训练会导致整体分类置信度下降。微调阶段使用的MiraBest数据集与RGZ FR测试集在流量密度、角尺寸分布上存在差异(数据集偏移),这也会影响模型的泛化能力,导致其对分布外数据的分类置信度降低。研究表明,预训练数据的质量(与下游任务的相似性)比单纯的数量更重要。
综上所述,本研究成功地将自监督学习框架应用于大规模射电星系的FR形态分类,产生了迄今为止最大的FR分类样本之一。研究结果强有力地证实了FRI与FRII星系在物理性质(如光度、尺寸、宿主星系类型)上存在连续分布和显著重叠,而非简单的二分,挑战了传统的形态-光度关系。研究不仅证实了低光度FRII源的存在,还通过跨数据集的比较揭示了分类方法对样本选择的影响,强调了自动化分类中训练数据偏差的重要性。这项工作为利用先进机器学习方法处理下一代大型射电巡天项目(如SKAO)的海量数据奠定了坚实基础,并指出未来研究需要关注更复杂的形态描述符(如语义标签)和多波段信息(如光谱指数分布)的融合,以更全面地理解射电星系的物理本质。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号