Excel 数据匹配实战：五种身份证比对算法性能对比 | 极客日志

Python算法

Excel 数据匹配实战：五种身份证比对算法性能对比

针对 Excel 中大量身份证号数据的匹配需求，对比了暴力循环、Pandas isin、Merge、SQLite 及分块处理五种方案。实测表明，Pandas 向量化操作（isin/merge）在常规数据量下效率最高，耗时不足 1 秒；暴力法因 O(nm) 复杂度完全不适用；分块处理适用于内存受限场景。建议优先选用 Pandas 内置方法，复杂逻辑可考虑 SQLite。

修罗发布于 2026/3/27更新于 2026/7/2043 浏览

问题定义与数据准备

手头通常会有两个 Excel 文件需要处理：

small.xlsx: 包含约 5,000 条记录。
large.xlsx: 包含约 140,000 条记录。

核心目标是从大表中快速找出所有身份证号存在于小表中的记录，并导出到新文件。假设两个表的身份证号字段名均为 id_card。

先做准备工作，安装必要的库并模拟一些数据用于测试和性能估算。

import pandas as pd
import time
import random

def generate_id_card():
    """生成一个模拟的 18 位身份证号"""
    region_code = random.choice(['110101','310104','440301'])
    birth_date = f"19{random.randint(50,99):02d}{random.randint(1,12):02d}{random.randint(1,28):02d}"
    sequence_code = f"{random.randint(0,999):03d}"
    check_code = random.choice(['X','0','1','2','3','4','5','6','7','8','9'])
    return region_code + birth_date + sequence_code + check_code

# 生成小表数据 (5000 条)
small_data = {'id_card': [generate_id_card() for _ in range(5000)]}
small_df = pd.DataFrame(small_data)
small_df.to_excel(, index=)


large_list = []
ids_from_small = small_df[].tolist()
overlap_ids = random.sample(ids_from_small, )

 _  ():
     random.random() <   overlap_ids:
        id_to_use = random.choice(overlap_ids)
    :
        id_to_use = generate_id_card()
    large_list.append(id_to_use)

large_data = {: large_list, : []*}
large_df = pd.DataFrame(large_data)
large_df.to_excel(, index=)
()
()
()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

def algorithm_1_brute_force(small_file, large_file, output_file):
    print("算法 1：暴力双重循环 - 开始执行")
    start_time = time.time()
    
    # 1. 加载数据
    small_df = pd.read_excel(small_file)
    large_df = pd.read_excel(large_file)
    
    # 确保 id_card 列是字符串类型，避免因数据类型导致的匹配失败
    small_df['id_card'] = small_df['id_card'].astype(str)
    large_df['id_card'] = large_df['id_card'].astype(str)
    
    # 获取小表的身份证号列表
    small_ids = small_df['id_card'].tolist()
    matched_rows = []
    large_ids = large_df['id_card'].tolist()
    
    # 2. 嵌套循环比对
    for i, large_id in enumerate(large_ids):
        for small_id in small_ids:
            if large_id == small_id:
                matched_rows.append(i)
                break
    
    # 3. 收集结果
    result_df = large_df.iloc[matched_rows]
    
    # 4. 保存结果
    result_df.to_excel(output_file, index=False)
    
    end_time = time.time()
    execution_time = end_time - start_time
    print(f"算法 1 完成。找到 {len(result_df)} 条匹配记录。耗时：{execution_time:.4f} 秒")
    return execution_time

def algorithm_2_pandas_isin(small_file, large_file, output_file):
    print("算法 2：Pandas isin() - 开始执行")
    start_time = time.time()
    
    # 1. 加载数据
    small_df = pd.read_excel(small_file)
    large_df = pd.read_excel(large_file)
    small_df['id_card'] = small_df['id_card'].astype(str)
    large_df['id_card'] = large_df['id_card'].astype(str)
    
    # 2. 创建查询集合
    target_set = set(small_df['id_card'])
    
    # 3. 向量化筛选
    mask = large_df['id_card'].isin(target_set)
    
    # 4. 使用布尔索引获取结果
    result_df = large_df[mask]
    
    # 5. 保存结果
    result_df.to_excel(output_file, index=False)
    
    end_time = time.time()
    execution_time = end_time - start_time
    print(f"算法 2 完成。找到 {len(result_df)} 条匹配记录。耗时：{execution_time:.4f} 秒")
    return execution_time

def algorithm_3_pandas_merge(small_file, large_file, output_file):
    print("算法 3：Pandas Merge - 开始执行")
    start_time = time.time()
    
    # 1. 加载数据
    small_df = pd.read_excel(small_file)
    large_df = pd.read_excel(large_file)
    small_df['id_card'] = small_df['id_card'].astype(str)
    large_df['id_card'] = large_df['id_card'].astype(str)
    
    # 2. 执行内连接
    # 注意：这里使用 small_df[['id_card']] 是为了避免其他同名列产生后缀
    result_df = pd.merge(large_df, small_df[['id_card']], on='id_card', how='inner')
    
    # 3. 保存结果
    result_df.to_excel(output_file, index=False)
    
    end_time = time.time()
    execution_time = end_time - start_time
    print(f"算法 3 完成。找到 {len(result_df)} 条匹配记录。耗时：{execution_time:.4f} 秒")
    return execution_time

import sqlite3

def algorithm_4_sqlite(small_file, large_file, output_file):
    print("算法 4：SQLite 内存数据库 - 开始执行")
    start_time = time.time()
    
    # 1. 加载数据
    small_df = pd.read_excel(small_file)
    large_df = pd.read_excel(large_file)
    small_df['id_card'] = small_df['id_card'].astype(str)
    large_df['id_card'] = large_df['id_card'].astype(str)
    
    # 2. 创建内存数据库连接
    conn = sqlite3.connect(':memory:')
    
    # 3. 导入数据到数据库
    small_df.to_sql('small_table', conn, index=False)
    large_df.to_sql('large_table', conn, index=False)
    
    # 4. 编写并执行 SQL 查询
    query = """ SELECT large_table.* FROM large_table WHERE large_table.id_card IN (SELECT id_card FROM small_table) """
    result_df = pd.read_sql_query(query, conn)
    
    # 5. 关闭连接
    conn.close()
    
    # 6. 保存结果
    result_df.to_excel(output_file, index=False)
    
    end_time = time.time()
    execution_time = end_time - start_time
    print(f"算法 4 完成。找到 {len(result_df)} 条匹配记录。耗时：{execution_time:.4f} 秒")
    return execution_time

def algorithm_5_chunking(small_file, large_file, output_file, chunksize=10000):
    print("算法 5：分块处理 - 开始执行")
    start_time = time.time()
    
    # 1. 加载小数据并创建集合
    small_df = pd.read_excel(small_file)
    small_df['id_card'] = small_df['id_card'].astype(str)
    target_set = set(small_df['id_card'])
    
    chunks_result_list = []
    
    # 2. 分块读取大数据
    chunk_reader = pd.read_excel(large_file, chunksize=chunksize)
    for chunk in chunk_reader:
        chunk['id_card'] = chunk['id_card'].astype(str)
        
        # 3. 处理当前块
        mask = chunk['id_card'].isin(target_set)
        filtered_chunk = chunk[mask]
        chunks_result_list.append(filtered_chunk)
        print(f"已处理一个数据块，该块找到 {len(filtered_chunk)} 条匹配记录。")
    
    # 4. 合并结果并保存
    if chunks_result_list:
        final_result_df = pd.concat(chunks_result_list, ignore_index=True)
    else:
        final_result_df = pd.DataFrame()
    
    final_result_df.to_excel(output_file, index=False)
    
    end_time = time.time()
    execution_time = end_time - start_time
    print(f"算法 5 完成。找到 {len(final_result_df)} 条匹配记录。耗时：{execution_time:.4f} 秒")
    return execution_time

算法	优点	缺点	预计时间	推荐度
1. 暴力循环	实现简单	速度极慢，无法忍受	~30 分钟以上	⭐（绝不推荐）
2. Pandas isin()	实现简单，速度最快	需内存容纳小表集合	<1 秒	⭐⭐⭐⭐⭐（首选）
3. Pandas Merge	实现简单，速度最快	略有额外开销	~1 秒	⭐⭐⭐⭐⭐（首选）
4. SQLite	高效，支持复杂查询	步骤稍多，数据迁移开销	1-3 秒	⭐⭐⭐⭐（备用方案）
5. 分块处理	内存友好，可处理超大文件	速度较慢，实现稍复杂	2-5 秒	⭐⭐⭐（特殊场景）

if __name__ == '__main__':
    files = ('small.xlsx', 'large.xlsx')
    times = {}
    times['alg_2'] = algorithm_2_pandas_isin(*files, 'result_2.xlsx')
    times['alg_3'] = algorithm_3_pandas_merge(*files, 'result_3.xlsx')
    times['alg_4'] = algorithm_4_sqlite(*files, 'result_4.xlsx')
    times['alg_5'] = algorithm_5_chunking(*files, 'result_5.xlsx', chunksize=50000)
    
    print("\n=== 所有算法耗时对比 ===")
    for alg, t in times.items():
        print(f"{alg}: {t:.4f} 秒")

Excel 数据匹配实战：五种身份证比对算法性能对比

问题定义与数据准备

更多推荐文章

相关免费在线工具

算法一：暴力双重循环 (Brute Force Double Loop)

原理与步骤

Python 实现

优劣对比

算法二：利用 Pandas 的 `isin()` 方法

原理与步骤

Python 实现

优劣对比

算法三：Pandas Merge（合并）

原理与步骤

Python 实现

优劣对比

算法四：使用数据库（SQLite）

原理与步骤

Python 实现

优劣对比

算法五：分块处理 (Chunking)

原理与步骤

Python 实现

优劣对比

总结与最终对比

更多推荐文章

相关免费在线工具

Excel 数据匹配实战：五种身份证比对算法性能对比

问题定义与数据准备

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

算法一：暴力双重循环 (Brute Force Double Loop)

原理与步骤

Python 实现

优劣对比

算法二：利用 Pandas 的 isin() 方法

原理与步骤

Python 实现

优劣对比

算法三：Pandas Merge（合并）

原理与步骤

Python 实现

优劣对比

算法四：使用数据库（SQLite）

原理与步骤

Python 实现

优劣对比

算法五：分块处理 (Chunking)

原理与步骤

Python 实现

优劣对比

总结与最终对比

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

算法二：利用 Pandas 的 `isin()` 方法