香港中学生性健康研究中自生成识别码(SGICs)在匿名纵向数据匹配中的应用与效果评估

【字体: 时间:2025年06月03日 来源:BMC Medical Informatics and Decision Making 3.3

编辑推荐:

  为解决匿名纵向研究中数据匹配难题,香港大学团队创新性采用自生成识别码(SGICs)技术,对1,064名中学生性健康干预项目进行追踪。研究通过5元素编码(含4数字+3字母)实现72.65%总体匹配率,发现匹配成功率与性别、年级显著相关,且匹配组对性健康态度更积极。该研究为敏感话题纵向研究提供了可推广的方法学解决方案,发表于《BMC Medical Informatics and Decision Making》。

  

在性健康这类敏感领域的研究中,匿名数据收集能显著提高回答真实性,但如何准确匹配同一参与者不同时间点的匿名数据却成为方法论难题。传统方法如收集真实ID会降低参与者信任度,而完全匿名又会导致数据无法纵向关联。香港的研究团队注意到,亚洲文化背景下现有自生成识别码(SGICs)研究存在空白——中文命名体系、生肖文化等元素与西方差异显著,可能影响匹配效果。

香港大学护理学院联合公共卫生学院团队在《BMC Medical Informatics and Decision Making》发表了一项开创性研究。他们设计了一套包含5个文化适配元素的SGIC系统:母亲姓氏第二字母、出生日期、姓氏末字母、生肖末字母和兄弟姐妹排行。通过阶梯式匹配算法(优先数字元素+辅助社会人口学数据),对6所中学1,064名学生的性健康干预前后数据进行分析。

关键技术包括:(1) 5元素SGIC生成框架(4数字+3字母);(2) 五步分层匹配算法(从完全匹配到性别/家庭结构辅助);(3) 逻辑回归分析匹配成功率影响因素;(4) 卡方检验比较匹配组间响应差异。所有数据来自2019-2020学年香港中学1-3年级队列。

主要结果
匹配成功率分析
完全匹配率达49.06%,部分匹配增加23.59%。男性(aOR:0.63)和初一学生(vs初三;aOR:0.56)完全匹配率更低,但男性更易实现部分匹配。出生日期和兄弟姐妹排行这两个数字元素匹配准确率达100%,而母亲姓氏字母匹配率仅31.47%,凸显中文罗马拼音拼写差异的挑战。

数据质量差异
完全匹配组性别项缺失率仅1.92%,显著低于未匹配组(13.06%)。在性健康态度条目上,完全匹配组认为"性健康很重要"的比例(90.96%)是未匹配组(79.08%)的2.66倍(OR值),部分匹配组也呈现类似趋势。

讨论与意义
该研究首次证实SGICs在亚洲青少年群体中的适用性,72.65%的总体匹配率虽低于西方研究均值,但通过算法优化挽回23.59%数据具有重要方法学价值。研究发现的文化特异性问题——如母亲姓氏拼写差异导致的匹配困难,为后续研究提供了改进方向。

更值得关注的是匹配状态与数据质量的关联:匹配失败者不仅缺失值更多,对性健康话题的态度也更消极。这一发现提示,单纯剔除未匹配数据可能引入系统性偏差,特别是在评估干预效果时。

研究建议未来SGIC设计应优先选择数字元素(如电话号码末四位)、避免依赖拼写的文化敏感项,并保持社会人口学问题的一致性以辅助匹配。这些经验对艾滋病预防、物质滥用等敏感领域研究具有重要借鉴意义,为在保护隐私前提下开展高质量纵向研究提供了可行方案。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号