
-
生物通官微
陪你抓住生命科技
跳动的脉搏
挪威历史精神健康数据集的构建与标准化:1872-1929年精神疾病住院记录的跨世纪分析
【字体: 大 中 小 】 时间:2025年08月31日 来源:Scientific Data 6.9
编辑推荐:
本研究通过OCR技术和人工校验构建了挪威1872-1929年间29所精神卫生机构的历史住院数据集,解决了历史医疗记录数字化和标准化难题。研究人员将历史诊断术语映射至Bertillon分类体系,整合地理和性别变量,为研究后病毒性精神障碍(如长期COVID)的长期模式提供了首个跨世纪定量分析框架,对理解传染病大流行与心理健康关联具有重要启示。
在医学史和公共卫生领域,理解传染病大流行对心理健康的长远影响始终是重要课题。19世纪末至20世纪初的挪威,正值细菌理论和现代精神病学发展的关键时期,但这段历史时期的精神健康数据长期处于"数据金矿"状态——虽然档案数字化使其可获取,却因格式问题难以用于定量分析。更棘手的是,历史诊断术语与现代分类体系脱节,例如"神经衰弱(neurasthenia)"和"子宫疾病"等过时概念,使得比较研究举步维艰。这些问题严重制约了学者对后病毒性精神障碍(如1889年流感后精神病)的长期追踪能力。
为破解这一难题,由奥斯陆城市大学(Oslo Metropolitan University)Svenn-Erik Mamelund领衔的国际团队在《Scientific Data》发表研究,通过构建1872-1929年挪威精神卫生机构标准化数据集,首次实现了跨58年的历史精神健康定量分析。这项研究特别关注传染病与心理健康关联,为COVID-19大流行引发的长期心理健康问题提供了历史参照。
研究团队采用三大关键技术:1)使用ABBYY Finereader进行光学字符识别(OCR)提取扫描报告中的表格数据,对质量不佳的1899年报告采用人工转录;2)建立多维度验证体系,包括手动校正合并列、跨年份核对总数、标准化29所机构名称(如"Christiansand"统一为"Kristiansand");3)创新性地将历史诊断术语映射至Bertillon死因分类体系(ICD前身),同时保留原始术语供后续研究。
背景与数据概况
研究覆盖挪威29所不同类型机构(17所市立/4所国立/3所私立/2所监狱附属医院),包含89,438条记录。数据缺口(如1930年记录缺失)源于当时报表格式变更,团队通过查阅原始档案确认这些缺失非数据质量问题。图2展示的机构容量分布揭示重要发现:1870年代挪威部分地区完全缺乏精神卫生服务能力,患者被迫安置在"精神病殖民地"(sinssykekolonier)这类非专业场所。
诊断术语的革命性重构
通过分析图4显示的诊断术语演变,研究发现1903年后报告简化了分类(从年均150种降至约50种)。团队通过语义映射解决历史术语难题,例如将"skindsot"(皮肤消耗病)更新为"结核病"、"自我污染"归类为"自慰"。表5展示的术语标准化策略,既保留历史语境(如保留"chlorosis"作为独立女性健康分类),又实现与现代研究的衔接。
地理与性别维度
通过整合NUTS区域划分和经纬度坐标(表3),研究发现治疗资源分布不均:西部沿海地区设施密集,而北部偏远地区长期缺乏服务。性别分析显示,历史记录中存在明显的性别偏见诊断,如"子宫疾病"占女性入院原因的12%,反映当时医学界对女性身心健康的认知局限。
讨论与意义
这项研究创建了全球首个覆盖半世纪的精神健康标准化历史数据集,其价值体现在三方面:1)方法学上,开发的OCR-人工混合处理流程为其他历史医疗记录数字化提供模板;2)理论上,证实传染病大流行(如1889年流感)与精神障碍存在长期关联,为COVID-19后遗症研究提供历史基线;3)临床上,揭示精神卫生服务不平等的历史根源,对当代资源分配具有启示作用。
研究也存在一定局限,如1899年数据需实地获取,反映数字档案的"断链"问题。作者建议后续研究可结合气候、经济等同期数据,深化对精神健康社会决定因素的理解。该数据集已开源(Zenodo DOI:10.5281/zenodo.15101866),包含R脚本和完整映射表,支持比较历史研究。正如论文强调的,在解读历史诊断时需警惕将现代观念强加于过去——"胃溃疡"在1912年被视为压力所致而非幽门螺杆菌感染,这种认知差异正是历史流行病学最富启发性的研究维度。
生物通微信公众号
知名企业招聘