Python RDKit 化学信息学工具库使用指南

RDKit 是一个用于化学信息学的开源工具包，主要用于分子结构的处理、分析和可视化。本文从安装到核心功能提供清晰的示例。

一、安装 RDKit

推荐使用 conda 安装（这是最稳定的方式）：

# 创建并激活环境（可选但推荐）
conda create -n rdkit-env python=3.9
conda activate rdkit-env

# 安装 RDKit
conda install -c conda-forge rdkit

或者使用 pip 安装：

pip install rdkit

二、核心功能示例

以下是 RDKit 最常用的功能示例，涵盖分子加载、属性计算、结构可视化、子结构匹配等核心场景。

示例 1：基础操作（分子加载、属性计算）

# 导入核心模块
from rdkit import Chem
from rdkit.Chem import Descriptors, Draw

# 1. 从 SMILES 字符串创建分子对象（SMILES 是分子结构的文本表示）
# 示例：乙醇的 SMILES
smiles = "CCO"
mol = Chem.MolFromSmiles(smiles)

# 检查分子是否创建成功（避免无效 SMILES）
if mol is None:
    raise ValueError("无效的 SMILES 字符串！")

# 2. 计算分子基本属性
print("=== 分子基本属性 ===")
# 分子量
mw = Descriptors.MolWt(mol)
print(f"分子量：{mw:.2f}")
# 脂水分配系数（logP，衡量分子亲脂性）
logp = Descriptors.MolLogP(mol)
print(f"logP: {logp:.2f}")
# 氢键供体数量
h_donor = Descriptors.NumHDonors(mol)
print(f"氢键供体数：{h_donor}")
# 氢键受体数量
h_acceptor = Descriptors.NumHAcceptors(mol)
print(f"氢键受体数：")


()

()

first_atom = mol.GetAtomWithIdx()
()

()

from rdkit import Chem from rdkit.Chem import AllChem, DataStructs from rdkit.Chem.Fingerprints import FingerprintMols import numpy as np # ===================== 1. 准备分子数据 ===================== # 定义一组示例分子的 SMILES（乙醇、甲醇、乙酸、苯） smiles_dict = { "Ethanol": "CCO", "Methanol": "CO", "Acetic acid": "CC(=O)O", "Benzene": "C1=CC=CC=C1" } # 将 SMILES 转换为 RDKit 分子对象 mols = {} for name, smi in smiles_dict.items(): mol = Chem.MolFromSmiles(smi) if mol is not None: mols[name] = mol else: print(f"警告：{name} 的 SMILES 无效") # ===================== 2. 计算不同类型的分子指纹 ===================== # 2.1 Morgan 指纹（Circular Fingerprints） # 最常用，radius=2 是行业标准（对应 ECFP4/FCFP4） # nBits：指纹向量的长度（常用 1024/2048） print("=== 1. Morgan 指纹计算 ===") morgan_fps = {} for name, mol in mols.items(): # 计算 Morgan 指纹（位串形式） fp = AllChem.GetMorganFingerprintAsBitVect(mol, radius=2, nBits=1024) morgan_fps[name] = fp # 输出指纹基本信息 print(f"{name} Morgan 指纹：长度={fp.GetNumBits()}, 非零位数量={fp.GetNumOnBits()}") # 2.2 拓扑指纹（Topological Fingerprints） # 基于分子中的原子路径，经典但不如 Morgan 指纹常用 print("\n=== 2. 拓扑指纹计算 ===") topo_fps = {} for name, mol in mols.items(): fp = FingerprintMols.FingerprintMol(mol) # 默认参数 topo_fps[name] = fp print(f"{name} 拓扑指纹：长度={fp.GetNumBits()}, 非零位数量={fp.GetNumOnBits()}") # 2.3 转换为可可视化的数组（方便理解） print("\n=== 3. 指纹转换为数组（前 20 位） ===") ethanol_morgan_fp = morgan_fps["Ethanol"] # 将指纹转换为 numpy 数组 fp_array = np.zeros((1,)) DataStructs.ConvertToNumpyArray(ethanol_morgan_fp, fp_array) print(f"乙醇 Morgan 指纹前 20 位：{fp_array[:20]}") # ===================== 3. 基于指纹的分子相似度计算 ===================== print("\n=== 4. 分子相似度分析（Tanimoto 系数） ===") # Tanimoto 系数：范围 0（完全不同）~1（完全相同） # 比较乙醇与其他分子的相似度（基于 Morgan 指纹） ref_fp = morgan_fps["Ethanol"] for name, fp in morgan_fps.items(): similarity = DataStructs.TanimotoSimilarity(ref_fp, fp) print(f"乙醇 vs {name}: Tanimoto 系数 = {similarity:.4f}") # ===================== 4. 批量相似度矩阵计算 ===================== print("\n=== 5. 批量生成相似度矩阵 ===") # 获取分子名称列表 names = list(morgan_fps.keys()) # 初始化相似度矩阵 sim_matrix = np.zeros((len(names), len(names))) # 填充相似度矩阵 for i, name1 in enumerate(names): for j, name2 in enumerate(names): sim_matrix[i, j] = DataStructs.TanimotoSimilarity(morgan_fps[name1], morgan_fps[name2]) # 打印相似度矩阵 print("相似度矩阵（行/列：Ethanol, Methanol, Acetic acid, Benzene）:") print(np.round(sim_matrix, 4))

from rdkit import Chem from rdkit.Chem import DataStructs, rdFingerprintGenerator import numpy as np # ===================== 1. 准备分子数据 ===================== smiles_dict = { "Ethanol": "CCO", "Methanol": "CO", "Acetic acid": "CC(=O)O", "Benzene": "C1=CC=CC=C1" } mols = {} for name, smi in smiles_dict.items(): mol = Chem.MolFromSmiles(smi) if mol is not None: mols[name] = mol else: print(f"警告：{name} 的 SMILES 无效") # ===================== 2. 用新版本接口计算 Morgan 指纹 ===================== print("=== 1. Morgan 指纹计算（新版本接口）===") # 初始化 Morgan 指纹生成器（替代旧的 GetMorganFingerprintAsBitVect） # radius=2 对应 ECFP4，nBits=1024 是指纹长度 morgan_gen = rdFingerprintGenerator.GetMorganGenerator( radius=2, # 指纹半径，和旧接口一致 fpSize=1024, # 指纹长度（替代旧接口的 nBits） useChirality=False # 是否考虑手性，默认 False ) morgan_fps = {} for name, mol in mols.items(): # 生成二进制 Morgan 指纹（位串） fp = morgan_gen.GetFingerprint(mol) morgan_fps[name] = fp # 输出指纹基本信息 print(f"{name} Morgan 指纹：长度={fp.GetNumBits()}, 非零位数量={fp.GetNumOnBits()}") # ===================== 3. 拓扑指纹（旧接口仍可用，无警告） ===================== print("\n=== 2. 拓扑指纹计算 ===") topo_fps = {} for name, mol in mols.items(): # 拓扑指纹接口暂未过时，可正常使用 fp = Chem.Fingerprints.FingerprintMols.FingerprintMol(mol) topo_fps[name] = fp print(f"{name} 拓扑指纹：长度={fp.GetNumBits()}, 非零位数量={fp.GetNumOnBits()}") # ===================== 4. 指纹转换为数组 ===================== print("\n=== 3. 指纹转换为数组（前 20 位） ===") ethanol_morgan_fp = morgan_fps["Ethanol"] # 将指纹转换为 numpy 数组 fp_array = np.zeros((1,)) DataStructs.ConvertToNumpyArray(ethanol_morgan_fp, fp_array) print(f"乙醇 Morgan 指纹前 20 位：{fp_array[:20]}") # ===================== 5. 分子相似度计算 ===================== print("\n=== 4. 分子相似度分析（Tanimoto 系数） ===") # Tanimoto 系数：范围 0（完全不同）~1（完全相同） ref_fp = morgan_fps["Ethanol"] for name, fp in morgan_fps.items(): similarity = DataStructs.TanimotoSimilarity(ref_fp, fp) print(f"乙醇 vs {name}: Tanimoto 系数 = {similarity:.4f}") # ===================== 6. 批量相似度矩阵计算 ===================== print("\n=== 5. 批量生成相似度矩阵 ===") # 获取分子名称列表 names = list(morgan_fps.keys()) # 初始化相似度矩阵 sim_matrix = np.zeros((len(names), len(names))) # 填充相似度矩阵 for i, name1 in enumerate(names): for j, name2 in enumerate(names): sim_matrix[i, j] = DataStructs.TanimotoSimilarity(morgan_fps[name1], morgan_fps[name2]) # 打印相似度矩阵 print("相似度矩阵（行/列：Ethanol, Methanol, Acetic acid, Benzene）:") print(np.round(sim_matrix, 4))

Python RDKit 化学信息学工具库使用指南

一、安装 RDKit

二、核心功能示例

示例 1：基础操作（分子加载、属性计算）

更多推荐文章

相关免费在线工具

示例 2：分子结构可视化

示例 3：子结构匹配（查找分子中的特定结构）

示例 4：分子文件读写（支持 SDF、Mol2 等格式）

三、分子指纹计算

完整示例代码

关键部分解释

四、新版本接口适配说明

关键修改点解释

总结

更多推荐文章

相关免费在线工具

Python RDKit 化学信息学工具库使用指南

一、安装 RDKit

二、核心功能示例

示例 1：基础操作（分子加载、属性计算）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

示例 2：分子结构可视化

示例 3：子结构匹配（查找分子中的特定结构）

示例 4：分子文件读写（支持 SDF、Mol2 等格式）

三、分子指纹计算

完整示例代码

关键部分解释

四、新版本接口适配说明

关键修改点解释

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具