《Children and Youth Services Review》:Exploring expressions of adolescent delinquency in South Korea with social big data and topic modeling
编辑推荐:
青少年越轨行为的数字化演变及主题挖掘:基于韩国社会大数据的潜在狄利克雷分配分析,研究通过爬取2018-2019年141个在线渠道的201,914篇文本,发现五大主题:传统欺凌与网络欺凌关联、非法个人信息披露与性风险行为、青少年身份脆弱性风险、数字技术中介的性剥削、性暴力后果。
Yoonsun Han|Taekho Lee|Juyoung Song|Deborah Kang
韩国首尔国立大学社会福利系
摘要
由于数字设备的广泛使用以及信息和通信技术的进步,青少年风险行为的性质正在迅速演变,这给全面理解这一现象并有效干预带来了重大挑战。与传统的数据收集方法相比,社会大数据具有多项优势:可以以更加灵活和开放的方式收集重要信息,而无需自我披露或个人身份识别。本研究分析了2018年1月1日至2019年6月30日期间生成的、包含“青少年犯罪”及相关子类别词汇的韩国在线文本文档(共201,914份)。通过潜在狄利克雷分配(Latent Dirichlet Allocation)方法识别出以下五个关于青少年风险行为的主要主题:(1) 传统欺凌行为,尤其是与网络暴力和性暴力同时发生的欺凌;(2) 个人信息的非法分发和秘密泄露,这些信息可能被用于涉及性的风险行为;(3) 与青少年身份相关的风险行为及其带来的脆弱性;(4) 性剥削以及数字技术在其中的中介作用,以及防范剥削的必要性;(5) 性暴力的经历及其后果。这项探索性研究有助于深入了解在快速变化的数字环境中青少年风险行为的多样性和演变特性。这些发现可能为制定政策和干预措施提供依据,以应对青少年在新兴数字风险面前所面临的独特脆弱性。
研究节选
数字化与青少年犯罪形式的多样化
数字时代为韩国社会带来了机遇和挑战,尤其是在青少年风险行为方面。一个值得关注的问题是青少年犯罪,其数量和复杂性都在增加,因为新的犯罪形式通过在线空间和先进数字技术不断涌现。历史上,青少年犯罪主要表现为面对面的互动,包括地位相关的犯罪、财产犯罪和暴力犯罪。
数据
本研究的数据爬取和预处理工作由SKT Smart Insight公司与作者共同完成,包括一系列迭代步骤。SKT从141个开源的韩国在线渠道(包括数字新闻媒体、论坛、社区、博客和社交媒体平台)中收集了数据。具体而言,根据作者的要求,收集了包含“青少年犯罪”及相关词汇的在线文本文档。
结果
图1展示了用于确定LDA模型中最佳主题数量的模型选择过程。研究结果显示了2到20个可能的主题模型。Arun2010得分随着主题数量的增加而单调递减,Griffens2004得分则呈现逐渐上升的趋势;CaoJuan2009得分有所下降,而Deveaud2014得分在主题数量为3、4和5时出现显著上升。作者仔细研究了自动生成的主题模型。
讨论
本研究分析了2018至2019年间社会大数据文本中与青少年犯罪相关的关键词。通过LDA算法分析了从141个在线渠道收集的大量非结构化数据。通过识别社会大数据中的潜在主题,本研究结果有助于深入了解青少年犯罪形式的快速变化。
结论
虽然新技术和在线平台已日益成为青少年日常生活的一部分(用于教育、建立关系和娱乐等目的,Kim等人,2022年),但我们的研究发现表明,数字技术也可能导致年轻人风险经历在质量和数量上的增加。这项探索性研究汇总了大量包含重要信息的在线原始数据。
未引用参考文献
Kim等人,2020年;Lee等人,2021年。资助
本研究得到了韩国教育部和韩国国家研究基金会(NRF-2020S1A5A2A03045529项目)的支持。
利益冲突声明
作者声明他们没有已知的可能影响本文研究结果的财务利益或个人关系。