InChIKey 分子指纹:从哈希原理到全球监管合规实战
InChI 和 InChIKey 已成为全球科学家不可或缺的工具,为化学领域提供了一种新的通用语言。这些工具的强大功能使化学家和计算机能够更有效地沟通,从而加快科学研究的步伐。
为什么它是 FDA/NMPA 的'化学身份证'?
2006 年,IUPAC 在发布 InChI v1.0 后立即推出了 InChIKey。其核心使命非常明确:解决 InChI 字符串过长(平均 112 字符)无法用于数据库索引、URL、条形码及申报字段的问题。它提供确定性、抗碰撞、可逆映射(至 InChI)的 27 字符固定长度指纹,让'同一分子'在 PubChem、ChEMBL、DrugBank、FDA 数据库中拥有完全一致的 ID。
它不是通用哈希(如 SHA-256),而是 '语义感知哈希'(Semantic Hash)。由于 InChI 算法会生成一个与分子大小相对应的字符串,这些字符串可能非常长。InChIKey 是完整 InChI 字符串的精简表示,该字符串由 27 个字符组成,具体构成如下:
- 前 14 位(
XXXXXX-XXXXXX-XX):结构骨架 + 官能团 + 互变异构归一化结果(主哈希)。前 14 个字符编码核心分子骨架(分子式、连接方式、氢原子位置和电荷); - 中间 8 位(
UHFFFAOY):立体化学 + 电荷 + 自由基信息(立体层哈希)。连字符后是第二个 10 个字符的字符串,其中前 8 个字符编码补充核心数据的特征(立体化学、互变异构、同位素取代和金属配位)。剩余的 2 个字符指示原始 InChI 是否为标准 InChI 以及 InChI 软件的版本号; - 末位 1 位(
SA-N):版本标识 + 校验码(S=Standard,A=v1.09)。InChIKey 的最后一个字符指示质子化/去质子化状态。
💡 本质一句话: InChIKey = InChI 的压缩摘要 + 化学语义签名 + 版本水印
最小合法示例与结构解析
InChIKey=UHOVQNZJYSORNB-UHFFFAOYSA-N
逐段解析(IUPAC v1.09):
UHOVQNZJYSORNB:主哈希(Main layer)→ 编码C6H6(苯)的连接性、无官能团、无杂原子;UHFFFAOY:立体哈希(Stereo layer)→ 表示'无手性、无 E/Z、无电荷、无自由基'(UHFFFAOY是该组合的标准编码);SA-N:版本 + 校验 →S=Standard InChI(非 'Q' Quick 或 'B' Beta);A=v1.09;N=校验位(由前 25 位计算得出,防录入错误)。
⚠️ 关键事实:
- 所有苯衍生物的 InChIKey 前 14 位完全不同(因取代基改变主哈希);
(R)-和(S)-乳酸的 InChIKey 仅中间 8 位不同:(R)-lactic acid:JVTAAEKCZFNVCJ-SSDOTQPWSA-N(S)-lactic acid:JVTAAEKCZFNVCJ-NSDOTQPWSA-N
(仅第 16 位S↔N,表示 R/S 构型翻转)
生成逻辑与碰撞分析
InChIKey ≠ base64(sha256(InChI))。其生成分三步(IUPAC v1.09):


