开放科学传播研究新纪元:EurekAlert!新闻稿数据集的构建与应用
《Scientific Data》:An open dataset of EurekAlert! press releases for science communication research
【字体:
大
中
小
】
时间:2025年10月01日
来源:Scientific Data 6.9
编辑推荐:
为突破学术新闻稿大规模研究的瓶颈,研究团队系统采集并构建了EurekAlert!平台566,566条新闻稿的开放数据集。该数据集通过关系型数据库整合新闻稿元数据、科学出版物信息及全文链接,支持科学传播、替代计量学等领域的定量分析,推动科学传播研究的可重复性与跨学科融合。
科学新闻在向公众传播科研成果中扮演着关键角色。随着互联网技术的发展,科学传播的渠道日益多元,但新闻媒体仍是公众获取科学信息的主要来源。学术机构与出版商通过公共信息官(Public Information Officers, PIOs)发布新闻稿,以通俗语言介绍最新研究成果。然而,大规模量化研究长期受限于新闻稿数据的可获取性与系统性缺失。EurekAlert!作为美国科学促进会(AAAS)运营的非营利科学新闻平台,汇集了全球数千家科研机构的新闻稿,成为研究学术新闻稿的理想数据源。
为填补这一空白,研究团队构建了首个覆盖EurekAlert!自1996年上线至2025年的全面开放数据集。该研究发表于《Scientific Data》,旨在通过结构化数据支持科学传播、替代计量学(altmetrics)等领域的量化分析,促进科学传播研究的透明性与可重复性。
研究采用分阶段数据采集策略,结合网络爬虫与数据清洗技术,分两次(2023年与2025年)从EurekAlert!官网抓取新闻稿页面。通过解析HTML结构,提取新闻稿元数据(如标题、发布时间、机构、关键词)、关联科学出版物信息(期刊、会议、资助方、DOI)及全文中的超链接。为优化数据可用性,团队构建了关系型数据库模型,通过唯一标识符(euid)关联主表与关键词、机构等多值字段的副表,减少数据冗余。
数据集以JSON格式存储,包含三个核心模块:新闻稿元数据、科学出版物元数据及全文链接数据。关系型数据库设计通过euid连接各表,支持高效查询与扩展。例如,新闻稿可关联多个关键词或机构,通过序列号(keywords_seq_1)反映层级关系。
通过对比2021、2023与2025三个版本的数据集,研究验证了数据采集方法的稳健性。尽管EurekAlert!网站在2023年更新了URL结构与页面布局,导致部分旧链接失效,但2025年数据集仍成功捕获495,179条可访问记录,新增71,368条新闻稿,覆盖时间跨度为1996年1月至2025年3月。
科学出版物元数据的完整性随时间显著提升:2015年后,DOI字段的覆盖率持续增长,2018年起超50%的新闻稿包含DOI,为链接学术论文与传播效果分析奠定基础。
关键词聚类揭示新闻稿的主题分布特征。健康与医学(Health and medicine)、生命科学(Life sciences)为最常出现的领域,与社会科学的关注度相当。关键词层级结构(最高达11层)支持主题建模与趋势分析,例如通过共现网络可识别健康科学、物理工程等聚类主题。
本研究首次系统构建了EurekAlert!新闻稿的开放数据集,突破了科学传播研究的数据壁垒。数据集支持多维度分析,如科学新闻的准确性、机构代表性偏差、跨学科传播差异等。通过链接Crossref、OpenAlex等开放数据源,可进一步构建以新闻稿为核心的知识图谱,推动科学传播研究融入开放科学基础设施。
研究亦指出局限性:部分新闻稿因链接失效而缺失;机构名称未进行消歧;全文文本因版权限制未包含;多语言新闻稿尚未整合。未来工作可结合ROR(Research Organization Registry)、ORCID等标识符提升数据 interoperability,并扩展非英语新闻稿的采集。
该数据集的开放共享遵循CC BY-NC 4.0协议,可通过DataverseNL与Google BigQuery公开访问,为科学传播研究提供基础性资源,助力跨学科合作与政策分析。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号