比较回音室效应检测指标:对Twitter和Reddit的跨模型及跨平台分析

《ACM Transactions on the Web》:Comparing Echo Chamber Detection Metrics: A Cross-modeling and Cross-platform Analysis of Twitter and Reddit

【字体: 时间:2025年11月07日 来源:ACM Transactions on the Web

编辑推荐:

  回声室检测的跨平台比较与多维度指标评估。研究基于Twitter和Reddit数据,系统对比了网络拓扑、语义内容与混合方法在回声室检测中的有效性。发现网络指标(如随机游走、边界连接性)在Twitter的retweet网络中表现优异,但难以捕捉Reddit的评论互动特征。语义方法(如情感分析、主题建模)显著提升了Reddit数据的检测精度,而混合模型(如Zarate指数、ECR风险)在跨平台泛化中表现更佳。结论强调需结合平台特性选择指标,并建议未来扩展至去中心化平台如Mastodon。

  社交媒体平台已成为公众讨论的核心场所,使不同用户群体能够交换思想和信息。然而,随着“回音室”现象的兴起,即用户通过反复与持相同观点的其他用户互动来强化自身的信念,这一现象对民主思想交流和信息混乱的潜在风险日益显著。本文旨在对主流文献中提出的回音室检测指标进行比较分析,并聚焦于由两个主要社交媒体平台构成的跨平台场景,即Twitter(现更名为X)和Reddit。回音室检测指标涵盖了网络分析、内容分析以及混合解决方案。本文的研究成果揭示了这两个社交媒体平台上回音室的独特动态,同时指出了各种指标在识别回音室时的优势与局限性,并探讨了它们在不同社会图谱建模和领域中的适用性。

在社交媒体的使用日益普及的背景下,信息的获取和意见的形成方式经历了深刻的变革。这一变革带来了新的机遇,同时也引发了对社会动态、现实感知和公众舆论影响的担忧。回音室的形成与多种因素密切相关,其中包括技术性因素和心理社会性因素。技术性因素包括个性化搜索引擎和推荐系统,这些系统通过用户过去的消费模式,主要推送与其偏好、信念和在线行为相符的内容,从而形成了所谓的“信息气泡”。这一概念由Eli Pariser在2011年提出,指的是由算法创建的个性化信息环境,用户主要接触与自身观点一致的信息。另一方面,心理社会性因素,如选择性暴露(倾向于获取支持自身信念的信息)、确认偏误(倾向于解释信息以支持既有的观点)和同质性(倾向于与具有相似特征的人建立联系),也在信息传播过程中发挥了重要作用。这些因素共同作用,加剧了信息气泡现象,进而导致回音室的形成。回音室代表了一种封闭的用户群体,他们通过反复与同观点用户或信息源互动,使得特定观点和信念被不断放大和强化。因此,回音室的形成本质上与“社会互动”概念紧密相连,而信息气泡则更多地涉及个体层面的孤立。

在分析回音室现象时,重点在于如何识别密集的用户互动和对同一议题的相似信念。这一分析对于理解在线环境中的极化趋势和社会的分裂具有重要意义。然而,最近对回音室检测方法的可行性提出了质疑,主要是由于现有研究中缺乏对不同解决方案进行比较的综合性研究。大多数研究集中于单一平台或特定情境下的案例分析,而未能充分考虑其在不同领域和社会平台中的普遍适用性。

为了解决上述问题,本文提出了一项研究,评估和比较主要的回音室检测指标在不同领域和多个社交平台中的有效性、通用性和局限性。鉴于不同社交媒体平台的用户互动模式存在差异,本文特别聚焦于Twitter(现为X)和Reddit这两个平台。Twitter作为一条微博客平台,用户通过发布简短的“推文”进行交流,并使用话题标签(hashtags)来参与特定话题的讨论。而Reddit则以论坛形式组织,用户将新闻聚集到专门的“子版块”(subreddits)中,这些子版块涵盖多种主题和社区。

在本文中,我们考虑了10个数据集,包括6个来自Twitter和4个来自Reddit的数据集。这些数据集涉及引发了广泛讨论的议题,既包括在线也包括线下。其中,一个Twitter数据集围绕疫苗话题,可通过Kaggle获取。其余的Twitter数据集来源于Garimella等人的研究,并作为我们关于争议性话题的基准数据。Reddit的数据集则基于与社会政治议题相关的子版块,包括枪支管制、少数群体歧视、政治领域和疫苗话题。前三个主题与Morini等人的研究一致,对于每个选定的子版块,我们通过Reddit API获取了前1000条帖子及其相关的评论。

在构建社交图谱时,我们根据平台提供的不同互动模式,如“转发”、“提及”和“评论”,分别创建了无向加权图。为了计算不同的指标,我们需要构建两种图谱建模:一种是结构建模,另一种是内容增强的建模。在结构建模中,边的权重对应于两个用户在特定互动模式下的总互动次数。在内容增强建模中,我们结合了内容的语义信息,通过以下三种内容相关评分来调整边的权重:情感相似性评分、主题相似性评分和混合评分。情感相似性评分通过情感分析工具VADER进行,该工具是一种领域无关的模型,专门用于社交媒体内容,可以为文本中的词汇分配语义方向。主题相似性评分则通过ProLDA算法进行主题建模,该算法在OCTIS框架中实现,支持文本的预处理、训练和评估。

对于回音室的检测,本文考虑了多种指标,这些指标主要来源于网络分析、内容分析和混合分析方法。网络分析方法关注网络拓扑结构,例如边界连通性(BC)、偶极矩(DM)、随机游走争议(RWC)、边缘中心性争议(BCC)和嵌入争议(EC)。内容分析方法则通过情感分析工具,如情感评分比例(PN)、情感评分比例(RPN)和情感评分比例与文本单元比例的乘积(PNPNT),来识别情感倾向。混合分析方法则结合了网络结构和语义信息,如Zarate情感指数(Z)和回音室风险(ECR),这些指标通过结合文本嵌入和社区检测技术来评估网络中是否存在回音室。

研究结果显示,网络分析方法在Twitter的“转发”互动网络中表现出色,特别是对于具有争议性的主题。这表明网络结构在识别回音室方面具有重要作用。然而,这些方法在Reddit的“评论”互动网络中表现不佳,因为Reddit的互动模式更加多样化,用户之间可能更倾向于表达不同意见,从而使得网络结构难以直接反映意识形态的接近程度。此外,内容增强建模方法在Reddit上表现出了显著的提升,特别是在结合情感和主题信息的混合模型中。这表明在某些类型的互动网络中,考虑内容信息对于回音室检测至关重要。

本文还评估了不同指标在不同平台和领域中的表现,特别是网络分析方法、情感分析方法和混合方法。研究发现,网络分析方法在Twitter上更有效,而情感分析方法在Reddit上表现更优。混合方法则在两个平台上都显示出良好的效果,特别是Zarate情感指数和回音室风险指标。这些指标能够识别出回音室的存在,并且在评估不同社区时表现出更高的准确性。

综上所述,本文的研究揭示了回音室检测方法在不同社交媒体平台上的表现差异,强调了网络结构和内容信息在识别回音室中的重要性。此外,研究还指出了当前回音室检测方法的局限性,并提出了未来研究的方向,如扩展到其他社交媒体平台,探索更复杂的互动模式,以及在不同领域和平台上进行更全面的比较分析。这些研究为理解社交媒体中的回音室现象提供了重要的参考,并为未来的社交网络分析和治理提供了理论支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号