基于大语言模型重写与多级对比学习的网站所有者识别框架ReMon研究
《ACM Transactions on Knowledge Discovery from Data》:Website Owner Identification through Multi-level Contrastive Representation Learning
【字体:
大
中
小
】
时间:2025年11月07日
来源:ACM Transactions on Knowledge Discovery from Data
编辑推荐:
本综述提出ReMon框架,创新性地结合大语言模型(LLM)文本重写与多级对比学习(MCL)技术,有效解决网站所有者识别(WOI)任务中的长尾分布和噪声干扰问题。通过设计跨网站对比损失(Lcwc)、网站-所有者对比损失(Lwoc)和自监督所有者对比损失(Lcoc),实现了网站与所有者表征的精准对齐与分散,在真实数据集WOI-a和WOI-b上显著优于基线方法,为网络空间治理提供了可靠技术支撑。
研究背景与意义
随着互联网技术的飞速发展,网站数量呈现爆炸式增长,准确识别网站所有者(Website Owner Identification, WOI)已成为网络空间治理、网络安全监管和数字资产管理的关键技术需求。传统基于WHOIS查询的方法因隐私保护政策的强化而失效,而基于命名实体识别(NER)的方法仅能处理44.7%的显式包含所有者名称的网站。面对海量且具有长尾分布特性的网站数据,亟需开发一种能够从网站内容中自动学习所有者表征的创新方法。
方法创新:ReMon框架
研究团队提出了ReMon(Representation learning-based framework for Mon ownership identification)框架,该框架包含两大核心模块:LLM驱动的文本重写模块和多级对比学习(Multi-level Contrastive Learning, MCL)模块。
针对原始网页文本中存在大量导航菜单、样式信息等噪声的问题,设计特定提示模板(Prompt),指导LLM对提取的原始文本进行重写。重写规则包括:移除跨网站重复信息(如页眉导航栏)、全面描述网站向用户传递的主要信息(如产品描述、服务内容、行业归属等)、保留与所有者相关的信息,并将输出长度压缩至512词以内。实验表明,Qwen-14B-chat在多项LLM中重写效果最优。
该模块通过三层对比损失函数联合优化网站和所有者的表征学习:
- 1.1.跨网站对比损失(Lcwc):拉近同一所有者下网站表征的距离,推远不同所有者网站表征的距离。
- 2.2.网站-所有者对比损失(Lwoc):拉近网站表征与其对应所有者表征的距离,推远与其他所有者表征的距离。
- 3.3.自监督所有者对比损失(Lcoc):通过数据增强(元素丢弃ED、信息丢弃MD、噪声增强)生成同一所有者的不同表征视图,拉近其相互间的距离,推远与其他所有者表征的距离。
最终损失函数为三者加权和:L = α ? Lcwc + β ? Lwoc + γ ? Lcoc,其中α, β, γ为超参数。采用动量编码器(Momentum Encoder)和动态嵌入表(Dynamic Embedding Table)策略以提升训练稳定性和负样本利用率。
- 1.1.检索模式:当候选所有者集合已知时,通过计算查询网站表征与候选所有者表征的余弦相似度,返回最相似的所有者。
- 2.2.聚类模式:当候选所有者未知时,使用层次聚合聚类(HAC)算法对所有测试网站的表征进行聚类,同一簇中的网站被判为同一所有者。
实验结果与分析
研究构建了WOI-a和WOI-b两个真实数据集,包含数万个网站及其所有者信息。实验表明,ReMon在检索模式下的HR@1指标显著优于所有基线模型(包括SimCSE-BERT、RoBERTa等),在WOI-a和WOI-b上分别达到86.39%和87.88%,相对最强基线提升超过14%。在聚类模式下,ReMon在纯度(Purity)、F1值、FMI和ARI等指标上也均取得最佳性能。
- 1.1.组件有效性:消融实验证实,LLM重写和MCL模块均对性能提升有显著贡献,移除任一模块性能均下降。其中,Lcwc贡献最大,但Lwoc和Lcoc的加入能带来进一步增益。
- 2.2.长尾性能优异:ReMon在处理拥有较少网站(0-10个)的“长尾”所有者时表现尤为突出,HR@1提升超过15%,表明其能有效利用有限样本学习高质量表征。
- 3.3.表征空间可视化:可视化分析显示,ReMon学习到的网站表征在同一所有者下更紧凑,不同所有者间更分散,证明了其对齐与分散能力。
- 4.4.参数敏感性:温度系数τ和动量m对模型性能影响显著,最优值分别为0.04和0.99(或0.985)。损失权重α, β, γ的最优配置为(0.6, 0.2, 0.2)。
讨论与展望
ReMon框架为WOI任务提供了有效的解决方案,但其性能依赖于LLM的重写质量与计算效率。未来工作可探索以下方向:采用模型量化、知识蒸馏等技术降低LLM的计算开销;集成光学字符识别(OCR)技术从网站图片中提取文本信息;引入多模态学习融合图像、证书、IP地址等多源信息;进一步优化对比学习策略,提升对噪声和对抗样本的鲁棒性。
该研究不仅推动了网站所有者识别技术的发展,其提出的LLM重写与多级对比学习范式也对其他需要从长尾、噪声数据中学习实体表征的任务(如机构消歧、产品归属判定等)具有重要的借鉴意义。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号