编辑推荐:
为解决传统失业率数据局限性问题,研究人员整合约旦官方数据与 Google Trends 数据,为经济分析提供新资源。
在当今数字化时代,数据如同宝藏,深刻改变着各个领域的研究与决策方式。在经济学领域,尤其是研究失业率这一关键经济指标时,传统的数据收集方法却面临着诸多困境。传统用于统计失业率的方法,像 household surveys(家庭调查)和 administrative records(行政记录),往往存在时间滞后的问题。这就好比在快速行驶的列车上,用老旧的测速仪测量车速,等数据出来时,列车早已跑远,无法及时反映当下的真实情况。在 COVID-19 疫情期间,这种局限性更是暴露无遗。全球经济遭受重创,劳动力市场瞬息万变,政府和政策制定者急需实时数据来制定应对策略,但传统数据来源根本无法跟上经济变化的节奏。
在这样的背景下,来自 Princess Sumaya University for Technology(沙特阿拉伯费萨尔大学)和 Alfaisal University(沙特阿拉伯费萨尔大学)的研究人员 Osama Abdelhay 和 Taghreed Altamimi 开展了一项极具创新性的研究。他们将目光投向了非传统数据来源 ——Google Trends。Google Trends 就像是一个巨大的 “民意探测器”,通过分析搜索查询的热度,能实时反映公众的兴趣和关注点。研究人员将约旦统计局(Jordanian Department of Statistics,JDoS)提供的 2010 年至 2024 年的官方季度失业率数据,与 88 个精心挑选的、与失业和求职相关的阿拉伯语和英语关键词的 Google Trends 搜索兴趣数据相结合。这些关键词涵盖了现代标准阿拉伯语、黎凡特语、约旦方言以及英语,充分考虑了当地的语言习惯和就业市场的实际情况。
最终,研究人员构建了一个综合数据集,为研究人员和政策制定者提供了一个宝贵的资源。这一研究成果发表在《Scientific Data》上,它对于探索经济指标与在线搜索行为之间的关系有着重要意义,有助于开发预测模型、分析经济情绪,并为约旦及类似情况的地区制定政策提供依据。
在研究过程中,研究人员运用了多种关键技术方法。在数据收集阶段,失业率数据直接来源于 JDoS 的出版物,并经过官方核实;Google Trends 数据则通过编写 Python 脚本,利用 pytrends 库获取。为了将 Google Trends 的月度数据转化为与失业率数据匹配的季度数据,研究人员采用了三种数据聚合方法:Quarterly Mean Aggregation(QMA,季度均值聚合)、Quarterly Exponentially Weighted Moving Average(EMA,季度指数加权移动平均)和 Quarterly Seasonally Adjusted Weighted Average(SAWA,季度季节性调整加权平均)。之后,将处理好的数据与官方失业率数据进行合并,完成数据集的构建。
下面来详细看看研究结果。
- 数据收集:失业率数据方面,获取了 2010 Q1至 2024 Q3约旦的季度失业率,经多方面交叉验证,数据完整无误。Google Trends 数据则针对 88 个关键词,收集了 2010 年 1 月至 2024 年 6 月源自约旦的搜索兴趣得分。为确保数据质量,采取了分批检索关键词、重复查询可能存在问题的结果并进行数据合并等措施。
- 数据处理:通过 QMA,将一年 12 个月划分为 4 个季度,计算每个季度内 3 个月数据的简单算术平均值,生成相应的 CSV 文件。EMA 则利用指数平滑法,强调近期数据,使季度聚合值更能反映短期变化。SAWA 先对每月数据进行季节性分解,计算季节性指数,调整搜索兴趣得分,再根据调整后得分的方差分配权重计算加权平均值,三种方法为研究提供了不同视角的数据。
- 数据记录:该数据集可在 Mendeley Data 获取,包含约旦季度失业率数据文件以及分别对应不同聚合方法的 Google Trends 搜索兴趣数据文件,还有阿拉伯语关键词翻译文件。所有数据文件均为 CSV 格式,采用 UTF-8 编码,方便不同软件处理。
- 技术验证:研究人员对数据进行了多方面验证。确认失业率数据来源可靠,Google Trends 数据经过多次查询核实;检查数据的一致性和完整性,保证季度失业率数据无缺失,Google Trends 数据合理保留零值;通过时间序列图和箱线图等验证聚合数据能准确反映原始数据特征;请专家验证关键词的有效性,确保数据能体现当地特色。
研究结论表明,该数据集整合了官方统计数据和丰富的搜索数据,为研究经济指标与在线搜索行为的关系奠定了基础。它支持经济学、社会科学和数据科学领域的研究,有助于开发预测模型,为政策制定提供参考。但研究也面临一些挑战,如数据隐私、代表性和伦理问题等。不过,该研究成果为后续研究提供了新的思路和方法,推动了利用非传统数据进行宏观经济分析的发展,有望在未来为政策制定和经济研究带来更多有价值的成果。