InChIKey:分子的'化学身份证',从哈希原理到全球监管合规
InChI 和 InChIKey 已成为全球科学家不可或缺的工具,为化学领域提供了一种新的通用语言。这些工具的强大功能使化学家和计算机能够更有效地沟通,从而加快科学研究的步伐。
【InChIKey】深度实战指南:为什么它是 FDA/NMPA 的'化学身份证'?
🔹 起源与设计哲学
2006 年,IUPAC 在发布 InChI v1.0 后立即推出 InChIKey —— 其核心使命是:
✅ 解决 InChI 字符串过长(平均 112 字符)无法用于数据库索引、URL、条形码、申报字段的问题;
✅ 提供确定性、抗碰撞、可逆映射(至 InChI)的 27 字符固定长度指纹;
✅ 让'同一分子'在 PubChem、ChEMBL、DrugBank、FDA 数据库中拥有完全一致的 ID。
它不是通用哈希(如 SHA-256),而是 '语义感知哈希'(Semantic Hash):
由于 InChI 算法会生成一个与分子大小相对应的字符串,这些字符串可能非常长。InChIKey 是完整 InChI 字符串的精简表示,该字符串由 27 个字符组成,具体构成如下:
- 前 14 位(
XXXXXX-XXXXXX-XX) → 结构骨架 + 官能团 + 互变异构归一化结果(主哈希),前 14 个字符编码核心分子骨架(分子式、连接方式、氢原子位置和电荷); - 中间 8 位(
UHFFFAOY) → 立体化学 + 电荷 + 自由基信息(立体层哈希),连字符后是第二个 10 个字符的字符串,其中前 8 个字符编码补充核心数据的特征(立体化学、互变异构、同位素取代和金属配位)。剩余的 2 个字符指示原始 InChI 是否为标准 InChI 以及 InChI 软件的版本号。; - 末位 1 位(
SA-N) → 版本标识 + 校验码(S=Standard,A=v1.09)。InChIKey 的最后一个字符指示质子化/去质子化状态。
💡 本质一句话:
InChIKey = InChI 的压缩摘要 + 化学语义签名 + 版本水印
🔹 最小合法示例(可直接用于数据库索引)
InChIKey=UHOVQNZJYSORNB-UHFFFAOYSA-N
✅ 逐段解析(IUPAC v1.09):
UHOVQNZJYSORNB:主哈希(Main layer)→ 编码C6H6(苯)的连接性、无官能团、无杂原子;UHFFFAOY:立体哈希(Stereo layer)→ 表示'无手性、无 E/Z、无电荷、无自由基'(UHFFFAOY是该组合的标准编码);SA-N:版本 + 校验 →S=Standard InChI(非'Q'Quick 或'B'Beta);A=v1.09;N=校验位(由前 25 位计算得出,防录入错误)。
⚠️ 关键事实:
- 所有苯衍生物的 InChIKey 前 14 位完全不同(因取代基改变主哈希);
(R)-和(S)-乳酸的 InChIKey 仅中间 8 位不同:(R)-lactic acid:JVTAAEKCZFNVCJ-SSDOTQPWSA-N(S)-lactic acid: (仅第 16 位 ↔ ,表示 R/S 构型翻转)


