论文解读:基于姓名的日本族裔身份算法判定
背景与动机
'不公正的景观'(Landscapes of Injustice)项目是一个跨机构、为期七年的研究计划,由加拿大社会科学与人文研究理事会资助。该项目的核心使命是调查并记录自 1942 年起,数以万计日裔人士被拘禁及其财产被加拿大政府查封处置的历史过程。
这一研究需要识别大量官方与非官方记录中的日裔加拿大人个体,往往只能依据姓名进行判断。在如此庞大的数据规模下,完全依赖人工处理是不现实的。因此,项目组开发了一种半自动化的算法方法,用以判定记录中的任意姓名是否为日本姓名。本文将详细描述该算法,并讨论其应用方式与局限。
核心挑战与有利条件
基于姓名判定族裔是一个极其复杂的问题。'族裔'概念本身既值得质疑又高度政治化,跨族裔通婚以及姓名的国际化进一步加剧了复杂性。然而,针对 1940 年代加拿大的日裔群体,我们拥有若干独特的有利条件:
- 人口同质性:战前日本移民来源地相对集中,且很少与其他族群通婚。约三分之一到二分之一的赴加移民出自和歌山县和滋贺县的少数几个村庄。
- 语言特征鲜明:标准日语的音系高度独特且约束强。音节库有限,使得我们可以构建正则表达式来过滤不符合日语音节结构的罗马字姓名。
- 丰富的档案记录:该社群留下了大量的社区名录和电话簿,其中包含详细的日文原名信息,可作为验证基准。
资源与工具
算法的实现依赖于多种资源的组合:
- O'Neill 的《Japanese Names》:一部权威的纸质参考书,收录了大量姓氏和名字,用于人工核验。
- ENAMDICT:一个包含近 94 万条目的电子词典,但因其过于全面,包含了非日本姓名,故需清洗后作为弱证据使用。
- Jisho.org:在线日语词典,便于快速查询汉字读音,主要用于人工辅助验证。
- Lauderdale & Kestenbaum 姓氏列表:基于美国社保记录整理的亚裔姓氏概率表,提供统计性证据,但需注意其与加拿大日裔群体的分布差异。
算法实现流程
原则设定
我们在实现中遵循四项核心原则:
- 明确判定:对每个候选姓名作出明确分类,避免模糊地带。
- 零误报:尽可能自动化,但不允许将非日本姓名误判为日本姓名。
- 人工兜底:对于自动化无法确定的案例,回退到人工研究。
- 反馈优化:将人工研究结果整合进算法,减少未来问题案例。
评分机制
如图 3 所示(此处省略图表),算法的核心是对罗马字姓名进行打分。计算逻辑如下:
- 黑名单拦截:首先检查是否匹配'已知非日本姓氏列表',若匹配则直接得分为 0。
- 音系正则匹配:检查姓氏和名字是否符合日语音节序列的正则表达式。姓氏匹配得 3 分;若姓氏匹配且名字不是首字母缩写,名字匹配额外得 2 分。
^(a|i|u|e|o|ka|ki|ku|ke|ko|kyu|kyo|ga|gi|gu|ge|go|sa|sha|shi|su|se|so|sho|za|ji|zu|ze|zo|ta|cha|chi|chu|tsu|te|to|da|de|do|na|ni|nu|ne|no|ha|hi|fu|he|ho|hya|hyu|hyo|ba|bi|bu|be|bo|pa|pi|pu|pe|po|ra|ri|ru|re|ro|ma|mi|mu|me|mo|wa|ya|yi|yu|ye|yo|n)+$ - 概率列表加权:匹配 Lauderdale & Kestenbaum 的姓氏概率列表,返回 0 到 8 分之间的得分。我们将无条件概率值的权重设为有条件概率值的三倍。
- 内部白名单加分:如果姓氏或名字出现在我们整理出的'已证实日本姓名列表'中,各加 3 分。这利用了目标人群自身的分布数据来校正外部偏差。
- 词典弱证据:最后匹配 ENAMDICT 的清洗版本,命中各加 1 分。由于该词典包含大量生僻且易混淆的条目,分值较低以避免误报。
最终总分介于 0 到 21 之间。目前阈值设定为:6 分及以上视为高置信日本姓名;低于此值但高于其他阈值的归为'暂定日本',需人工核查。

