
-
生物通官微
陪你抓住生命科技
跳动的脉搏
韩国政治文本语料库构建:选举宣传手册与政党声明的多维度分析及其比较政治学价值
【字体: 大 中 小 】 时间:2025年06月20日 来源:Scientific Data 5.8
编辑推荐:
本研究为解决韩国政治沟通中个体候选人与政党立场分析的数据库缺失问题,Tae Hyun Lim团队系统构建了包含49,678份选举宣传手册和82,723条政党声明的双语料库。通过OCR(光学字符识别)和khaiii形态分析技术,首次实现跨20年、多层级选举文本的结构化处理,为研究韩国政党内部动态、议程设置及民主语境下的竞选策略提供全新数据支持,成果发表于《Scientific Data》。
在当代政治传播研究中,韩国独特的选举规制环境创造了一个天然实验场:法律严格限制电视和广播广告,使得纸质宣传手册成为候选人接触选民的核心媒介。这种"被迫的简洁"(forced trade-off)现象,加上政党声明每日塑造公共话语的特性,为分析政治精英的战略沟通提供了珍贵素材。然而,现有研究多聚焦社交媒体或高层级选举,缺乏系统性的原始文本数据库,尤其难以捕捉基层选举候选人与政党领导层之间的议程差异。
美国汉密尔顿学院的Tae Hyun Lim博士团队在《Scientific Data》发表的研究,首次构建了覆盖2000-2022年间韩国六届国会议会选举、六届地方选举和五届总统选举的49,678份候选人宣传手册(Election Campaign Booklet Corpus),以及2003-2022年两大主要政党(保守派与进步派)82,723份官方声明(Party Statements Corpus)的双语料库。这项研究不仅填补了韩国政治文本数据的空白,更通过跨层级、跨时期的比较框架,揭示了选举规制如何塑造政治沟通的独特模式。
研究团队采用三项关键技术:1)基于Google Drive API的页面级OCR文本提取,通过黑白预处理使准确率达94.6%;2)利用khaiii(Kakao Hangul Analyzer III)深度学习库进行韩语形态分析和词性标注;3)通过韩国公共数据门户API整合候选人传记数据,解决跨数据集标识符不一致问题。特别值得注意的是,团队验证了大型语言模型(LLM)如ChatGPT-4用于文本修复的局限性——其生成性可能引入原稿不存在的内容,最终选择保持OCR原始输出的学术严谨性。
【数据记录】
选举手册语料库包含31个变量,涵盖从总统到基层议员的七类职位(office_id 1-11),标准化了24种职业(job_code)和21种教育等级(edu_code)的分类体系。技术验证显示,基础议会(basic_assembly)手册平均字数显著低于其他职位(1,009.2 vs 1,267.0),可能反映基层竞选资源差异或早期PDF质量缺陷。政党声明语料则完整记录了两大政党19年间16次更名(如保守派从Grand National Party到People Power Party)的演变轨迹。
【技术验证】
通过197份手册的人工转录对照实验,研究证实黑白处理的页面级Google Drive API方法在过滤文本(filtered text)比较中F1分数达0.9218,显著优于Tesseract(0.418)和全彩处理(0.862)。误差分析发现,OCR主要失误源于跨页词汇断裂和形近韩文字符混淆(如"■"与"■"),但刻意保留这些非生成性错误以维持数据真实性。
结论部分强调,这套语料库的价值体现在三个维度:首先,8-16页的严格篇幅限制使手册成为研究候选人战略优先级(strategic priorities)的"理想压缩包";其次,政党声明中未修饰的日常会议记录(daily leadership minutes)为观察立场形成过程提供内部视角;最后,时间跨度允许分析数字时代前后(2000s vs 2010s)竞选语言演变。该资源已通过OSF平台开源,其比较政治学意义在于:既为韩国研究提供基线数据,又为选举规制、政党分化和多层次代表等理论命题提供了东亚民主国家的新证据链。
讨论部分特别指出,未来研究可结合 manifesto Project Database的编码框架,或与议会演讲(parliamentary speeches)文本进行互补分析。团队也警示使用者注意2010年前基础议会数据的质量波动,建议与metro_assembly等高质量子集进行敏感性检验。这项研究不仅确立了政治文本处理的技术标准(如拒绝LLM修饰原则),其方法论更适用于其他受规制的选举体系研究,为比较政治语言学开辟了新路径。
生物通微信公众号
知名企业招聘