
-
生物通官微
陪你抓住生命科技
跳动的脉搏
浅尝辄止:使用网络爬虫在运动医学领域进行数据收集的指南
《The Journal of Strength & Conditioning Research》:Scraping the Surface: A Guide to Data Collection Using Web Scraping in Sports Medicine
【字体: 大 中 小 】 时间:2025年11月05日 来源:The Journal of Strength & Conditioning Research 3.0
编辑推荐:
本文旨在指导体育医学领域公开数据采集,通过操作化描述网络爬虫方法、分析其应用优势与局限性,并结合实际案例提供代码共享与可重复性实践方案,促进研究透明度。
Pinkoski, AM, Ward, P, Kluzek, S, Arundale, AJH, 和 Bullock, GS. 《浅析数据采集:体育医学中利用网络爬虫技术的指南》。《力量与 konditioning 研究杂志》(J Strength Cond Res)39(12): e1473–e1479, 2025。公开获取的运动员受伤数据可以与团队和个人的表现数据相结合,成为体育医学研究中一个有吸引力的研究手段。这些数据主要通过阅读网站的源代码并将其转换成可用于进一步分析的格式来收集,这一过程被称为网络爬虫(web scraping)。尽管这种方法越来越受欢迎,且数据来源属于公共领域,但使用这些方法的研究往往不公开其数据提取方法,因此存在可重复性方面的问题。通过方法透明化以及代码或数据集的共享来采用开放科学(Open Science)实践,是确保体育医学研究和应用领域中获得可重复且具有意义的结果的一种方式。本文的目的是:(a) 详细阐述数据爬取方法的操作流程;(b) 分析数据爬取方法在体育医学应用中的优缺点;(c) 提供一个实际案例,并附带相关数据和代码,展示如何在体育应用环境中使用可重复且可靠的数据爬取方法。