基于机器学习方法的MIGHTEE-COSMOS射电源中恒星形成星系与活动星系核的高效分类研究

《Monthly Notices of the Royal Astronomical Society》:Machine Learning Approaches for Classifying Star-Forming Galaxies and Active Galactic Nuclei from MIGHTEE-Detected Radio Sources in the COSMOS Field

【字体: 时间:2025年10月07日 来源:Monthly Notices of the Royal Astronomical Society

编辑推荐:

  本研究针对新一代射电连续谱巡天中海量射电源的高效分类需求,以MIGHTEE-COSMOS巡天数据为基础,系统比较了五种监督机器学习算法(LR、SVM、kNN、RF、XGB)在区分恒星形成星系(SFG)和活动星系核(AGN)方面的性能。研究发现,利用红外-射电相关参数(qIR)、光学致密性(class_star)、恒星质量(log(Mstar))和中红外颜色等关键特征,所有算法即使仅使用20%的训练数据也能达到90%以上的F1分数,其中kNN分类器表现出最高的准确性和稳定性。该研究为SKA等未来大型射电巡天的源分类提供了可靠的技术方案。

  
在浩瀚宇宙中,星系的演化始终是天文学研究的核心问题。星系主要通过两种物理过程驱动演化:恒星形成(Star Formation,SF)和黑洞吸积。恒星形成过程产生超新星加速的宇宙射线电子,在星系磁场中回旋产生同步辐射;黑洞吸积过程则通过相对论性喷流和外向流主导明亮射电源的辐射。准确区分这两种过程对于利用射电连续谱探索宇宙演化至关重要。
近年来,随着MeerKAT、LOFAR、ASKAP等新一代射电干涉阵列的建成,射电巡天进入了数据爆炸时代。这些巡天不仅灵敏度达到微央斯基(μJy)级别,覆盖面积也达数十平方度,导致探测到的射电源数量呈指数级增长。面对海量数据,传统分类方法已难以满足需求,迫切需要开发高效、自动化的分类技术来区分射电主导源为恒星形成星系(SFG)还是活动星系核(AGN)。
机器学习(Machine Learning,ML)在天文学中已确立牢固地位,广泛应用于星系形态分类、天体物理活动发现、光度红移估计等领域。然而,在SFG-AGN分离方面,此前研究多局限于单一算法。为此,Walter Silima等人开展了一项系统研究,比较五种广泛使用的监督机器学习算法在MIGHTEE-COSMOS巡天数据中分类SFG和AGN的性能。该研究近期发表于《Monthly Notices of the Royal Astronomical Society》。
研究人员采用的关键技术方法包括:首先基于MIGHTEE-COSMOS多波段星表构建包含18个物理参数的初始特征集;通过一维分析(直方图和K-S检验)、二维分析(特征相关性)和自动化特征分析(置换重要性、随机森林重要性、序列特征选择和ROC曲线)筛选出五个最有效的分类特征;使用网格搜索和3折交叉验证优化超参数;最后通过F1分数等指标系统评估五种机器学习分类器的性能。
特征分析与选择
研究团队首先对18个候选特征进行了全面评估。一维分析通过比较SFG和AGN的特征分布发现,qIR是区分两类源的最有效特征,其次是光学致密性参数class_star。K-S检验进一步证实了这些特征的判别能力。
二维特征相关性分析揭示了特征组合的增强效果。特别是将两个IRAC颜色(log(S8.0/S4.5)和log(S5.8/S3.6))组合使用时,虽然两类源的置信椭圆仍有重叠,但它们呈现出不同的相关性方向:AGN显示正相关,而SFG显示负相关。
自动化特征分析方法进一步验证了特征重要性。置换重要性分析和随机森林内置重要性均将qIR排名第一,class_star排名第二。序列特征选择确定了前三个最重要的特征依次为qIR、class_star和log(S8.0/S4.5)。ROC曲线分析显示qIR的AUC值达0.886,远高于其他特征。
综合考虑分类效率和完整性,研究最终选定五个关键特征:qIR、class_star、log(Mstar)、log(S8.0/S4.5)和log(S5.8/S3.6)。这些特征的完整性均超过96%,最终ML数据集包含4279个源。
机器学习模型性能比较
研究比较了五种监督机器学习算法在不同特征组合和训练集大小下的性能。特征组合从F1(仅qIR)到F5(全部五个特征)逐步增加。
结果表明,大多数模型性能随着特征增加而提升。当使用全部五个特征(F5)时,kNN、RF和XGB模型表现最佳,F1分数均超过90%。即使训练集仅占全数据的20%,所有模型(除RF使用单一特征外)仍能保持90%以上的F1分数。
kNN分类器表现出最高的准确性和稳定性,其性能受训练集大小影响最小。基于距离度量的kNN算法为射电连续谱巡天中的SFG-AGN分类提供了可持续且可解释的方法。
讨论与局限性
研究还探讨了类不平衡、特征缩放和降维等技术问题。类不平衡处理(通过欠采样平衡SFG和AGN数量)对模型性能影响不大,表明原始数据集的自然分布已适合分类任务。特征缩放(归一化和标准化)对kNN和逻辑回归模型影响微小,但反而降低了SVM性能。
降维方法(自动编码器和t-SNE)未能提升分类性能,可能因为样本量相对较小且存在单一主导特征(qIR)。研究确认保留原始五特征组合(F5)而不进行额外降维能提供最可靠的分类性能。
研究还评估了ML模型对仅通过X射线或VLBI识别的AGN的回收能力。结果显示,即使这些特征未作为输入,模型仍能部分识别这类AGN,表明训练集中包含有限X射线观测可略微提高分类召回率。
结论与展望
该研究系统评估了五种监督机器学习算法在MIGHTEE-COSMOS巡天数据中分类SFG和AGN的性能。研究发现:(1)传统分类中使用的五个参数被证明是最有效的特征;(2)大多数模型性能随特征组合增加而提升,排除中红外颜色特征会导致明显性能下降;(3)所有模型即使仅使用20%训练数据也能达到90%以上的F1分数;(4)kNN分类器表现出最高的准确性和稳定性。
这项研究为未来大型射电连续谱巡天(如SKA和ngVLA)中的源分类提供了可靠的技术基础。机器学习方法的高效性和准确性将助力天文学家从海量射电数据中快速识别出科学目标,推动星系演化研究的深入发展。随着射电天文学进入大数据时代,此类自动化分类技术的重要性将日益凸显。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号