
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于人工智能的可疑开放获取期刊预测模型构建与全球学术诚信影响评估
【字体: 大 中 小 】 时间:2025年08月28日 来源:SCIENCE ADVANCES 12.5
编辑推荐:
开放获取(OA)期刊的学术诚信面临"掠夺性出版"威胁,本研究创新性地整合网站设计、内容分析和文献计量学特征,开发出AI驱动的可疑期刊识别系统。通过15,426种期刊验证,模型在平衡阈值下实现AUC 0.79,发现1000+可疑期刊涉及数十万论文和数百万引用,为科研诚信维护提供可扩展的自动化筛查工具。
在开放获取(Open Access, OA)运动推动科学民主化的同时,一个暗流正在侵蚀学术出版的根基。诺贝尔奖得主Harold Varmus当年构想的E-biomed理想国,如今却成为"掠夺性期刊"的温床——这些期刊以快速发表为诱饵收取高额文章处理费(APC),却缺乏基本的同行评审。更令人担忧的是,这类期刊每年产出数十万篇论文,获得数百万次引用,甚至得到主要资助机构的资金支持,特别是在发展中国家学者中广泛传播。传统依靠人工审核的目录如DOAJ(开放获取期刊目录)已难以应对这个快速演变的威胁,亟需建立智能化的监测体系。
为应对这一挑战,研究团队开发了多模态人工智能系统,通过三个维度捕捉可疑期刊特征:首先将DOAJ的7大类审核标准转化为机器可读指标,包括网站内容完整性、编委资质等;其次采集15,426种期刊的网页源代码和首页截图,利用TF-IDF算法和ResNet卷积神经网络提取设计特征;最后整合Microsoft Academic Graph(MAG)中的18项文献计量指标,如h指数、自引率等。研究特别关注了12,869种DOAJ认证期刊与2,536种被除名期刊的对比特征。
网站内容特征工程
研究团队开发自动化爬虫系统,量化评估期刊网站关键要素:目标范围声明的可读性指标(采用Flesch-Kincaid等级等8种算法)、编委成员的平均机构排名、开放获取政策明确性等。虽然内容模型单独预测精度(PRC AUC 0.35)有限,但特征分析揭示可疑期刊更倾向隐瞒编委信息(P<0.001)。
网站设计模式识别
通过14,960份期刊首页截图的深度卷积神经网络分析,发现可疑期刊存在显著的设计聚类现象(AUC 0.41)。HTML标签的TF-IDF分析进一步显示,可疑期刊源代码存在特定重复模式(AUC 0.58),暗示可能存在模板化建站行为。
文献计量学标志物
基于3,729种期刊的计量特征构建的模型表现突出(AUC 0.64)。关键预测因子包括:作者自引率(OR=2.3)、编委h指数(OR=0.4)、机构引用多样性(OR=0.6)等。图2展示的回归分析表明,可疑期刊普遍存在中层作者h指数低(β=0.18)、参考文献机构单一(β=0.22)等特征。
多模态模型验证
整合三类特征的完整模型在交叉验证中达到AUC 0.79。专家盲审验证显示,AI判断与人类专家在出版伦理(Kendall's τ=0.19)、版权政策(τ=0.17)等客观标准上高度一致(P<0.001)。将模型应用于Unpaywall数据库的15,191种非DOAJ期刊,在50%阈值下识别出1,437种可疑期刊,估计精确度75.7%。
地理与资助分析
图3揭示的时空分布显示:发展中国家作者在可疑期刊的发表占比显著(P<0.01),美国NIH资助项目在可疑期刊的致谢率高于NSF(OR=1.8)。值得注意的是,虽然英语期刊占多数,但模型对葡萄牙语(精确度0.56)和印地语(0.54)期刊的检测效能相当。
这项发表于《SCIENCE ADVANCES》的研究开创性地证明,文献计量特征本身就能有效预测期刊质量,这为科研评价体系提供了新维度。研究者特别强调,AI系统应作为"初筛工具"而非最终裁决——在50%阈值下仍有24%假阳性率,主要来自已停刊期刊或会议论文集。该技术的重要意义在于其可扩展性:既能以10%阈值实现96%召回率用于全面监控,也能以80%阈值达到98%精确度用于重点核查。随着White House OSTP强制要求2025年实现联邦资助成果开放获取,这类自动化监管工具将成为维护学术生态平衡的关键防线。研究同时呼吁建立动态审核机制,因为当前发现的可疑期刊可能只是"冰山一角",其出版商往往通过更名、微调网站等方式逃避监测。这项研究为构建"人类专家-AI"协同的学术出版监管新模式提供了重要技术基础。
生物通微信公众号
知名企业招聘