面向广泛科学研究的中国人名性别关联开放数据集:助力中国性别差异研究的新工具
《Scientific Data》:An Open Dataset of Chinese Name-to-Gender Associations for Gender Prediction in Broad Scientific Research
【字体:
大
中
小
】
时间:2025年12月19日
来源:Scientific Data 6.9
编辑推荐:
本研究针对现有性别检测工具对中文姓名预测准确率低的问题(如Genderize.io API对中国拼音姓名的错误率达43%-94%),开发了一个包含105万汉字姓名和9.7万拼音姓名的大型数据集。该数据集源自3028万中国企业股东信息,通过两种独立数据集验证表明,其在姓名覆盖率和预测精度上均显著优于现有方法,为研究中国高技能劳动力市场的性别多样性提供了可靠工具。
在当今全球化的学术和职业环境中,性别多样性已成为衡量社会进步的重要指标。尽管女性在各行各业的参与度显著提高,但在高技能领域如学术研究、研发和创新创业中,女性仍然面临代表性不足和薪酬差距的挑战。要深入研究这些性别差异问题,准确获取性别数据是首要前提。然而,当直接收集性别信息不可行时,研究人员通常依赖姓名推断性别的工具,如Genderize.io API和Gender API等。
现有性别检测工具主要针对西方命名习惯设计,对中文姓名的预测效果却令人担忧。研究表明,这些工具对中文拼音姓名的错误率高达43%-94%,几乎无法用于中国人群的性别分析。这一局限严重制约了我们对中国高技能劳动力市场中性别多样性的理解。
造成这一问题的原因主要有三:一是现有工具数据集中中文姓名比例极低(如Genderize.io中仅占0.57%);二是中西方命名习惯和文化背景存在显著差异;三是工具依赖拼音(中文的国际音标系统)进行预测,而不同汉字可能对应相同拼音,导致信息丢失。值得注意的是,目前尚不清楚这些挑战中哪个对中文姓名性别检测的限制最大,更不确定是否能像欧洲姓名那样可靠地从中文姓名预测性别。
为了解决这一研究空白,石东波和Tong Sherry T.在《Scientific Data》上发表了一项重要研究,提出了一个专门针对中文姓名的大型性别关联数据集。这项研究不仅提供了迄今为止最全面的中文姓名性别关联数据,还系统评估了该数据集在性别预测中的实用性和准确性。
研究方法上,作者采用了与Aneja和Reshef类似的政府记录分析方法,通过与北京Trident科技公司合作,获取了国家工商行政管理总局(SAIC)注册企业的3028万个体股东数据。数据处理包括姓名分割(识别82个常见双字姓氏)、拼音转换(使用Python pinyin包),最终生成包含105万汉字姓名和9.7万拼音姓名的数据集。研究使用两个独立数据集进行验证:国家自然科学基金委员会(NSFC)的99729名项目负责人数据和9800名中国青少年数据。
数据记录显示,该数据集包含两个主要表格:CnGender(汉字姓名)和PinyinGender(拼音姓名)。每个表格都包含姓名、男女使用人数及男性比例等字段。数据分析表明,超过60%的个体使用的汉字姓名主要被男性使用(其中90%以上为男性),约20%的姓名主要被女性使用(其中90%以上为女性)。换句话说,使用0.9的阈值(女性比例≤0.1或≥0.9),可以为超过80%的个体分配性别。
姓名集中度分析显示,拼音姓名的分布比汉字姓名更为分散。前10%的热门汉字姓名覆盖了70%的人口,而前10%的热门拼音姓名覆盖了63%的人口。这一发现与中文命名习惯一致,即某些常见中文姓名在人口中占比较大。
技术验证部分通过两个测试数据集评估了该数据集的性别检测能力。在国家自然科学基金获得者数据集中,本研究的数据集(无论是汉字还是拼音方法)在分类覆盖率和准确性方面均优于Genderize.io API和NomQuamGender。具体而言,使用汉字方法,71%的获得者能被正确分配为男性,13%为女性;而Genderize.io API仅正确分配了42%的男性和11%的女性。在青少年数据集中也观察到类似模式,尽管差异较小。
使用0.5阈值的预测误差分析表明,在基金获得者数据集中,本研究数据集的所有误差指标均小于Genderize.io API和NomQuamGender。例如,汉字方法的errorCoded指标为0.13,拼音方法为0.16,均显著低于对比方法。在青少年数据集中,汉字方法在大多数误差指标上也优于对比方法。
覆盖率和精度分析显示,随着频率阈值的增加,拼音方法实现了最高的姓名覆盖率。在频率范围为0-200时,汉字和拼音方法在基金获得者数据集和青少年数据集中的姓名覆盖率均超过Genderize.io API。当频率达到10时,拼音方法在基金获得者数据集中的覆盖率超过91%,在青少年数据集中超过82%,而Genderize.io和NomQuamGender的覆盖率分别降至约50%和70%。
精度分析表明,与Genderize.io和NomQuamGender相比,该数据集支持更精确的性别预测工具。在基金获得者数据集的男性组中,汉字方法在所有阈值下均优于Genderize.io,初始阈值下精度约为90%,随后稳步提高。对于女性预测,Genderize.io在基金获得者数据集中的精度仅为57%-73%,而汉字方法达到79%-94%。在青少年数据集中,汉字方法在男性组中再次实现最高精度。
针对中国境外中文姓名的性能测试显示,在美国社会安全管理局(USSA)数据集中,中文拼音方法的覆盖率和精度均有所下降。当频率阈值为10时,中文拼音方法可以预测USSA数据集中44.3%的姓名,阈值达到0.8时,可预测姓名的覆盖率约为28%。预测结果对男性和女性的精度分别为58%和75%。性能下降可能源于命名习惯的文化差异以及包含类似拼音拼写的非中文姓名。
研究结论与讨论部分强调,该数据集在性别预测方面表现出色,特别是在常用频率为10、阈值为0.8的条件下,汉字和拼音方法在姓名覆盖率和性别预测精度上均显著优于Genderize.io和NomQuamGender。这表明基于中文姓名预测个体性别是可行的,且具有适当的工具支持。
该研究也存在一些局限性。首先,该方法仅限于二元性别推断,未考虑非二元或种族多样性身份。其次,数据集构建自中国企业股东记录,这一人群 disproportionately 由中上社会经济背景的老年男性组成,可能导致某些姓名模式被过度代表。目前缺乏具有人口代表性的大型中文姓名基准数据集,限制了模型在整个中国人群中的性能评估。
总之,这项研究为支持学术界探索性别相关问题迈出了重要一步。未来工作可以在此基础上进一步发展,包括使用中国总人口的随机样本进行进一步验证,以及通过考虑多音字姓名中字符组合的性别概率来提高转换准确性。最重要的是,需要开发更具包容性的数据集和策略,以支持中文姓名的非二元、自我认同和种族多样性身份,从而在相关研究中实现更公平的应用。
该数据集已在Harvard Dataverse上公开可用,源代码也在GitHub上开放,为后续研究提供了重要基础和便利。这一资源将极大促进中国性别相关研究的发展,特别是在高技能劳动力市场的性别多样性分析方面。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号