基于大语言模型重写与多级对比学习的网站所有者识别框架ReMon研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Knowledge Discovery from Data》：Website Owner Identification through Multi-level Contrastive Representation Learning

【字体：大中小】 时间：2025年11月07日 来源：ACM Transactions on Knowledge Discovery from Data

编辑推荐：

　　本综述提出ReMon框架，创新性地结合大语言模型（LLM）文本重写与多级对比学习（MCL）技术，有效解决网站所有者识别（WOI）任务中的长尾分布和噪声干扰问题。通过设计跨网站对比损失（Lcwc）、网站-所有者对比损失（Lwoc）和自监督所有者对比损失（Lcoc），实现了网站与所有者表征的精准对齐与分散，在真实数据集WOI-a和WOI-b上显著优于基线方法，为网络空间治理提供了可靠技术支撑。

研究背景与意义

随着互联网技术的飞速发展，网站数量呈现爆炸式增长，准确识别网站所有者（Website Owner Identification, WOI）已成为网络空间治理、网络安全监管和数字资产管理的关键技术需求。传统基于WHOIS查询的方法因隐私保护政策的强化而失效，而基于命名实体识别（NER）的方法仅能处理44.7%的显式包含所有者名称的网站。面对海量且具有长尾分布特性的网站数据，亟需开发一种能够从网站内容中自动学习所有者表征的创新方法。

方法创新：ReMon框架

研究团队提出了ReMon（Representation learning-based framework for Mon ownership identification）框架，该框架包含两大核心模块：LLM驱动的文本重写模块和多级对比学习（Multi-level Contrastive Learning, MCL）模块。

LLM文本重写模块

针对原始网页文本中存在大量导航菜单、样式信息等噪声的问题，设计特定提示模板（Prompt），指导LLM对提取的原始文本进行重写。重写规则包括：移除跨网站重复信息（如页眉导航栏）、全面描述网站向用户传递的主要信息（如产品描述、服务内容、行业归属等）、保留与所有者相关的信息，并将输出长度压缩至512词以内。实验表明，Qwen-14B-chat在多项LLM中重写效果最优。

多级对比学习模块

该模块通过三层对比损失函数联合优化网站和所有者的表征学习：

1.1.
跨网站对比损失（L_cwc）：拉近同一所有者下网站表征的距离，推远不同所有者网站表征的距离。
2.2.
网站-所有者对比损失（L_woc）：拉近网站表征与其对应所有者表征的距离，推远与其他所有者表征的距离。
3.3.
自监督所有者对比损失（L_coc）：通过数据增强（元素丢弃ED、信息丢弃MD、噪声增强）生成同一所有者的不同表征视图，拉近其相互间的距离，推远与其他所有者表征的距离。

最终损失函数为三者加权和：L = α ? L_cwc + β ? L_woc + γ ? L_{coc，其中α, β, γ为超参数。采用动量编码器（Momentum Encoder）和动态嵌入表（Dynamic Embedding Table）策略以提升训练稳定性和负样本利用率。}

预测框架

根据应用场景提供两种预测模式：

1.1.
检索模式：当候选所有者集合已知时，通过计算查询网站表征与候选所有者表征的余弦相似度，返回最相似的所有者。
2.2.
聚类模式：当候选所有者未知时，使用层次聚合聚类（HAC）算法对所有测试网站的表征进行聚类，同一簇中的网站被判为同一所有者。

实验结果与分析

研究构建了WOI-a和WOI-b两个真实数据集，包含数万个网站及其所有者信息。实验表明，ReMon在检索模式下的HR@1指标显著优于所有基线模型（包括SimCSE-BERT、RoBERTa等），在WOI-a和WOI-b上分别达到86.39%和87.88%，相对最强基线提升超过14%。在聚类模式下，ReMon在纯度（Purity）、F₁值、FMI和ARI等指标上也均取得最佳性能。

关键发现：

1.1.
组件有效性：消融实验证实，LLM重写和MCL模块均对性能提升有显著贡献，移除任一模块性能均下降。其中，L_cwc贡献最大，但L_woc和L_{coc的加入能带来进一步增益。}
2.2.
长尾性能优异：ReMon在处理拥有较少网站（0-10个）的“长尾”所有者时表现尤为突出，HR@1提升超过15%，表明其能有效利用有限样本学习高质量表征。
3.3.
表征空间可视化：可视化分析显示，ReMon学习到的网站表征在同一所有者下更紧凑，不同所有者间更分散，证明了其对齐与分散能力。
4.4.
参数敏感性：温度系数τ和动量m对模型性能影响显著，最优值分别为0.04和0.99（或0.985）。损失权重α, β, γ的最优配置为(0.6, 0.2, 0.2)。

讨论与展望

ReMon框架为WOI任务提供了有效的解决方案，但其性能依赖于LLM的重写质量与计算效率。未来工作可探索以下方向：采用模型量化、知识蒸馏等技术降低LLM的计算开销；集成光学字符识别（OCR）技术从网站图片中提取文本信息；引入多模态学习融合图像、证书、IP地址等多源信息；进一步优化对比学习策略，提升对噪声和对抗样本的鲁棒性。

该研究不仅推动了网站所有者识别技术的发展，其提出的LLM重写与多级对比学习范式也对其他需要从长尾、噪声数据中学习实体表征的任务（如机构消歧、产品归属判定等）具有重要的借鉴意义。

联系信箱：

粤ICP备09063491号

研究背景与意义

方法创新：ReMon框架

实验结果与分析

讨论与展望

热点排行