编辑推荐:
瑞士个性化健康网络(SPHN)医疗数据存在整合难题,为解决此,研究人员开展 SPHN Schema Forge 相关研究。结果显示该工具可自动将表格数据转换为 RDF 模式等。其意义在于提升数据处理效率,推动医疗语义标准化和数据互操作性。
在医疗领域,数据的有效整合与利用一直是个难题。瑞士的医疗数据来源于多个不同的系统,这些数据在标准、质量评估以及语言等方面都存在差异,这给数据的协调统一和研究整合带来了极大的挑战。为了实现不同系统间数据的互操作性,就需要一个既结构化又富含语义的框架,然而传统的表格形式虽然便于理解,但在表示复杂关系和机器处理方面存在不足。在此背景下,开展一项能够突破这些困境的研究显得尤为必要。
瑞士个性化健康网络(SPHN)的研究人员积极投身于这项研究。他们致力于解决医疗数据的整合难题,通过一系列努力,开发出了 SPHN Schema Forge 这一工具。研究结果表明,该工具能显著提高医疗语义处理的效率,将原本复杂繁琐的手动操作转变为自动化流程。这一成果的意义重大,它不仅有助于实现医疗数据的标准化和语义的机器可读性,还能更好地促进不同研究项目间的数据共享与互操作性,为医疗领域的研究和实践带来了新的突破。该研究成果发表在《Journal of Biomedical Semantics》上。
在研究过程中,研究人员运用了多种关键技术方法。首先,采用资源描述框架(RDF)作为数据交换的标准,其以图为基础的数据模型可将知识表示为三元组,有效构建语义模型。其次,借助 Shapes Constraint Language(SHACL)进行数据验证,通过定义的条件对 RDF 数据进行验证,保障数据质量。另外,利用 SPARQL Protocol and RDF Query Language(SPARQL)进行数据查询,方便用户获取和处理 RDF 数据。
研究结果
- SPHN Schema Forge 的功能实现:SPHN Schema Forge 是一个可扩展且用户友好的网络服务。它能够将符合 SPHN 要求的数据集电子表格自动转换为 RDF 模式,还能生成用于数据验证的 SHACL 规则、模式的 HTML 可视化以及用于基本数据分析的 SPARQL 查询。例如,它可以将 “Billed Diagnosis” 概念从数据集准确转换为 RDF 表示形式,清晰地展示了其在概念转换方面的能力。
- 提高数据处理效率:自 2022 年起,SPHN 数据协调中心(DCC)使用 SPHN Schema Forge 生成相关语义工件。原本需要花费数天时间构建的文件,现在仅需几分钟就能完成,大大缩短了构建时间,提高了工作效率。同时,四个国家数据流也利用该工具扩展了 SPHN 数据集,融入了自己的语义。
研究结论和讨论
SPHN Schema Forge 成功实现了将健康相关语义从表格格式自动转换为语义网标准,显著减轻了 SPHN 数据协调中心的手动工作量,方便项目生成符合 FAIR 原则且可交换的模式和数据。不过,数据建模和底层语义定义仍依赖人工和专业知识,未来可探索自动化质量验证和增强用户交互。
此外,尽管 SPHN SHACLer 能确保数据符合 RDF 模式,但数据质量涵盖多个维度,如正确性、准确性和完整性,部分内容该工具尚未覆盖。项目可自定义 SHACL 来提升数据质量,但验证数据完整性仍具挑战。总体而言,SPHN Schema Forge 推动了 SPHN 在医疗数据整合和利用方面的目标实现,为未来语义数据管理奠定了坚实基础,有望在更广泛的健康数据互操作性领域发挥重要作用。