编辑推荐:
研究人员在摘要中指出,宇航员Gus Grissom曾为美国载人登月计划(峰值雇用超400,000人、占联邦预算超4%)辩护时提出:“归根结底,只有人才能以其他人可以理解的方式充分评价月球”[1]。Grissom认为Apollo计划的最佳理由并非新技术能力或衍生
研究人员在摘要中指出,宇航员Gus Grissom曾为美国载人登月计划(峰值雇用超400,000人、占联邦预算超4%)辩护时提出:“归根结底,只有人才能以其他人可以理解的方式充分评价月球”[1]。Grissom认为Apollo计划的最佳理由并非新技术能力或衍生成果,而是其对人类经验(human experience)的贡献,这一点颇能说明问题。研究人员提到Confucius(孔子)所言“ Study history, study history. In history lies all the secrets of statecraft.”后指出,文学、语言、历史、哲学、宗教与艺术同样关注人类存在经验(the experience of being human),作为学术学科,它们聚焦意义、价值与判断,而非物理与社会科学常关注的实证关系。若搁置文字处理、电子邮件与网页浏览器等生产力工具,乍看之下人文学科(Humanities)似乎是从现代计算工具受益最少的学术研究领域之一。然而,正如首批计算机中有些是可编程计算器用于弹道表计算,有些也被用于词频统计与密码破译;事实上“人文学科计算”(Humanities Computing)领域始于二战后立即的探索:1940年代末耶稣会学者Roberto Busa与1950年代初英语教授Josephine Miles的开创性工作。随1960年代中期大学计算中心兴起、计算机可及性提升,人文学科计算领域确立,首本专门期刊《Computers and the Humanities》面世。2000年代初以来,该领域以现名数字人文(Digital Humanities, DH)为人所知;多位学者追溯其八十年发展,如Hockey[2]、Sula与Hill[3]、Crymble[4]等的著作。数字人文范围因多年演进而难界定,图1词云给出若干关键概念线索;从外部视角看,该领域最终涉及三方面:1)将文献及其他人工制品转换为数字格式并纳入本地或档案数据库;2)对数据进行交互式定性及可能的定量分析以辨识模式与关系,例如通过编码(coding)、链接(linking)、网络或映射(networking or mapping);3)结果可视化(visualization)。例见图2,Jane Austen?《傲慢与偏见》(Pride and Prejudice)文本使用文本分析程序Voyant Tools进行研究。对涉足数字人文的历史学等领域研究者而言,定性数据分析软件,亦称计算机辅助定性数据分析软件(Computer-Assisted Qualitative Data Analysis Software, CAQDAS),在研究有关键作用;定性数据含文本、图像、音频或视频,可为他人产生、具历史属性,或为研究者通过访谈、实地访问等收集,有时伴有支持性定量数据。虽各CAQDAS应用有专有项目格式,但由Rotterdam Exchange Format Initiative (REFI)开发的开放REFI-QDA标准(扩展名.qdpx与.qdc)被广泛使用,因其支持软件间数据交换。CAQDAS应用选择很多,专有如NVivo、Atlas.ti,开源如ELAN、QualCoder;数字人文研究者用CAQDAS完成的任务有些是CAQDAS特有:1)内容检索(content searching)、2)查询(querying)、3)书写与标注(writing and annotation);另一些较陌生:4)编码(coding,指派描述性标签以识别相关内容)、5)链接(linking,识别编码内容间关联)、6)网络或映射(networking or mapping,可视化编码内容连接)。Silver与Lewins[6]、萨里大学CAQDAS协作项目[7]等给出CAQDAS应用详细指导;并非所有工具支持全部CAQDAS功能,研究者可能用专用工具如Voyant Tools(文本分析)、Tropy(档案研究图像管理);定量数据可用通用工具Tableau、Gephi(可视化)、ArcGIS(制图)、Python与R(脚本)。目标仍是找寻有助理解并解释数据的模式与关系。文献与其他文档数字化是成功应用数字人文技术的前提;书籍扫描(book scanning)指通过图像扫描仪将实体书刊转为数字媒体(图像、电子文本或电子书(e-books));常规平板扫描仪适合标准纸张但不适用于脆弱历史文献、图书与刊物的高效或无损扫描。相对廉价且常便携的高拍式书籍扫描仪(over-head book scanners)的出现,可获取甚高分辨率图像并用机器学习协助:1)光学字符识别(optical character recognition, OCR);2)消除因边侧装订导致的页面弯曲畸变,革命了书刊等文本文档转为实用数字格式;个人用A3/A4幅面高拍式书籍扫描仪主要厂商含Czur、Canon、Ricoh,另有工业级适于图书馆机构。对历史学家,高拍式书籍与文献扫描极大改变了处理档案材料的方式并变革了图书馆与档案馆访问;对读者,大规模书籍扫描项目(Internet Archive、Project Gutenberg、Google、Million Book Digital Library Project、Hathi Trust Digital Library等开展或支持)使许多难获取图书在线可得。基于大语言模型(large language models, LLMs)训练于文本、音频、视频、代码等定性数据的生成式人工智能(generative AI)在许多方面可视为历史学家与数字人文研究者数十年来所做定性数据分析的自然延伸;LLMs可自动化以往研究者手动执行的流程,大幅缩减特定任务耗时,使此前不切实际的规模化定性数据分析项目成为可能,是能力的显著进步;但LLMs历来易出现幻觉(hallucination),验证其结果正确性在实践中具挑战性。部分CAQDAS包如NVivo拥抱生成式AI;NVivo 15引入AI Assistant,可自动摘要文档、访谈与编码,同时建议潜在代码或标签与主题;也可减少起草备忘录(memos)等手动耗时任务,并能保存所有生成内容(如摘要)为链接备忘录;为应对数据隐私关切,NVivo开发者Lumivero保证用户数据不会用于训练AI模型,并申明“AI Assistant旨在支持而非取代研究者,它减少手动任务、加速早期分析,让研究者有更多时间专注有意义解释与更深洞见”[8]。2025年现代语言协会(Modern Language Association, MLA)会议(数千教育家、学生与语言文艺文化学者集会)上,JSTOR在线图书馆两位经理Beth LaPensee与Diba Kaya主持“AI时代的数字人文”(The humanities in the age of AI)互动环节,旨在为AI日益增强的人文学科角色、特别是JSTOR新AI驱动研究工具争取支持并缓解担忧[9];会上参与者分组收集对AI的观点、潜在实际应用、挑战与风险、AI增强未来中应维系的核心价值与实践;会议成果报告无大意外:对人文学研究者,生成式AI既是对既有秩序的显著挑战,也是扩宽人文学研究范围与规模的重要机遇,包括揭示与理解传播史(communications history)的努力;这些技术及他者正变革数字时代的历史研究[10]。
该研究发表于《IEEE Communications Magazine》。研究背景方面,传统人文学科(含历史学)长期被认为从现代计算工具中受益有限,因为其核心关注人类经验、意义、价值与判断,而非物理与社会科学偏重的实证关系;然而自20世纪中叶起,人文学科计算逐步发展,至21世纪初形成数字人文(Digital Humanities, DH)领域。目前在历史学等人文研究中存在若干关键问题:文献与其他人工制品的数字化转换效率低且易损于传统扫描方式;定性数据(文本、图像、音频、视频等)规模庞大、来源多样,传统手动定性分析耗时费力且难以规模化;不同计算机辅助定性数据分析软件(Computer-Assisted Qualitative Data Analysis Software, CAQDAS)间缺乏互通标准,阻碍协作与数据复用;新兴生成式人工智能(generative AI)基于大语言模型(large language models, LLMs)带来自动化可能,但也伴随幻觉、结果验证困难与数据隐私等风险。因此有必要系统梳理现代历史学家在数字人文框架下可依托的工具链,包括数字化手段、CAQDAS平台、互操作标准、可视化与脚本工具,以及生成式AI的融入方式与边界,以明确技术研究对人文学研究范式转型的支撑作用与应注意的问题。研究人员通过对数字人文领域发展脉络的回顾、对CAQDAS功能体系的分类、对高拍式书籍扫描(over-head book scanners)等数字化技术的进展归纳、对生成式AI在CAQDAS中应用案例(如NVivo 15的AI Assistant)及学界讨论(如2025年MLA会议JSTOR环节)的梳理,得出数字人文对历史学研究的核心支撑在于资料数字化、定性/定量混合分析、结果可视化三大层面,CAQDAS是关键技术节点,REFI-QDA标准为跨软件数据交换提供开放方案,生成式AI可显著提升早期分析效率但须以研究者主导解释、重视隐私与结果核验为前提;该研究对明确现代历史学的工具谱系、推动数字人文在历史学中的规范应用具重要意义。
研究人员采用的主要关键技术方法如下:对数字人文领域演进作文献梳理(源头含Roberto Busa、Josephine Miles等);归纳数字人文三大核心环节(数字化入库、交互分析、可视化);分类CAQDAS功能(内容检索、查询、书写标注、编码、链接、网络/映射),列举典型软件(NVivo、Atlas.ti、ELAN、QualCoder等)及互操作标准REFI-QDA(.qdpx、.qdc);整理高拍式书籍扫描仪(over-head book scanners)厂商(Czur、Canon、Ricoh)与机器学习辅助OCR及畸变校正;列举专项工具Voyant Tools(文本分析)、Tropy(档案图像管理)、Tableau与Gephi(可视化)、ArcGIS(制图)、Python与R(脚本);分析生成式AI融入CAQDAS实例(NVivo 15 AI Assistant)及2025 MLA会议JSTOR环节讨论产出;无生物试剂、培养、质粒构建类操作,也无具体样本队列来源。
研究结果部分保留原小标题并简述如下:
The Digital Humanities:研究人员指出数字人文范围因多年演进难精确定义,图1词云反映若干关键概念;从外部看数字人文最终含三方面:将文献等转为数字格式纳入数据库、交互式定性及可能的定量分析以辨识模式与关系(如编码、链接、网络/映射)、结果可视化;例见图2,Jane Austen《Pride and Prejudice》用Voyant Tools做文本分析。CAQDAS在历史学等研究中起关键作用,定性数据可为文本、图像、音频、视频,来源可为他人产出的历史资料或研究者收集的访谈、实地材料等,可伴定量数据;虽各CAQDAS有专有格式,但开放REFI-QDA标准(.qdpx、.qdc)由Rotterdam Exchange Format Initiative (REFI)开发,广泛支持软件间交换。CAQDAS应用较多(专有NVivo、Atlas.ti,开源ELAN、QualCoder);典型任务分CAQDAS特有(内容检索、查询、书写标注)与较陌生功能(编码即赋描述标签以识别相关内容、链接即识别编码内容间连接、网络/映射即可视化连接)。Silver与Lewins、萨里大学CAQDAS协作项目等给出使用指导;并非所有工具支持全部CAQDAS功能,研究者可能用Voyant Tools做文本分析、Tropy管档案图像;定量数据可用Tableau、Gephi可视化,ArcGIS制图,Python、R脚本;目标是找有助理解解释数据的模式与关系。
Digitizing Books and Other Documents:研究人员强调文献等数字化是数字人文应用前提;书籍扫描指用图像扫描仪将实体书刊转为数字媒体(图像、电子文本、电子书);常规平板扫描仪适标准纸但不适于脆弱历史文献、图书刊物高效无损扫描。相对廉价便携的高拍式书籍扫描仪(over-head book scanners)可用机器学习协助OCR与消除边侧装订致页面弯曲畸变,革命了书刊等转实用数字格式;个人用A3/A4幅面高拍式书籍扫描仪主要厂商含Czur、Canon、Ricoh,另有工业级适于图书馆机构。对历史学家,高拍式扫描极大改变档案材料处理并变革图书馆与档案馆访问;对读者,大规模扫描项目(Internet Archive、Project Gutenberg、Google、Million Book Digital Library Project、Hathi Trust Digital Library等)使许多难获图书在线可得。
Generative Artificial Intelligence:研究人员指出基于LLMs训练于定性数据(文本、音频、视频、代码等)的生成式AI可视为数字人文研究者数十年定性数据分析的自然延伸;LLMs可自动化以往手动流程,大幅缩减特定任务耗时,使此前不切实际的规模化定性数据分析项目可行,是显著能力进步;但LLMs易幻觉,验证结果正确性具实践挑战。部分CAQDAS如NVivo拥抱生成式AI;NVivo 15引入AI Assistant,可自动摘要文档、访谈、编码,建议潜在代码/标签与主题,减少起草备忘录等手动任务,保存生成内容(如摘要)为链接备忘录;Lumivero保证用户数据不用于训练AI模型,申明AI Assistant旨在支持而非取代研究者,减少手动任务、加速早期分析,让研究者更多专注有意义解释与更深洞见。2025年MLA会议上JSTOR两位经理Beth LaPensee与Diba Kaya主持“AI时代的数字人文”互动环节,为AI在人文学角色特别是JSTOR新AI工具争取支持并缓解担忧;参与者分组收集对AI的观点、实际应用、挑战风险、AI增强未来应维系核心价值与实践;成果报告无大意外:生成式AI对人文学研究者既是既有秩序显著挑战,也是扩宽人文学研究范围与规模的重要机遇,含揭示与理解communications history的努力;这些技术及他者正变革数字时代历史研究。
讨论与结论部分:研究人员总结,现代历史学家依托数字人文框架可获得从资料数字化(高拍式书籍扫描仪加机器学习辅助OCR与畸变校正、大规模扫描项目)、CAQDAS平台(NVivo、Atlas.ti、ELAN、QualCoder等)及开放互操作标准REFI-QDA(.qdpx、.qdc)、专项工具(Voyant Tools文本分析、Tropy档案图像管理、Tableau与Gephi可视化、ArcGIS制图、Python与R脚本)到生成式AI融入(如NVivo 15 AI Assistant)的完整工具链;数字人文核心在于数字化入库、交互分析(定性/定量混合,含编码、链接、网络/映射)、结果可视化三大环节;CAQDAS是关键研究节点,REFI-QDA标准解决跨软件数据交换;生成式AI可显著提升早期分析效率、扩大项目规模,但须研究者主导解释、重视数据隐私(如开发商承诺不用于训练模型)、严控幻觉风险与结果核验;人文学科(含历史学)并非与现代计算工具绝缘,相反数字人文数十年发展及最新生成式AI延伸正深刻变革历史研究方式与范围,同时也带来方法论与伦理新课题,需在推进工具应用同时维系人文学核心关切:意义、价值、判断与人类经验的理解。