Python 高效读取数据文件指定行数方法

针对大数据文件只需读取部分行的场景，三种基于 Python 的解决方案。分别涵盖读取文件头部、尾部及任意位置指定行数的实现方式。通过原生文件操作结合 Pandas 库，在避免全量加载内存的前提下提升处理效率。重点分析了不同场景下的 seek 技巧与 skiprows 策略，帮助开发者在实际数据分析中优化 IO 性能。

星落发布于 2018/9/21更新于 2026/7/2428 浏览

在处理大规模数据文件时，经常遇到需要提取特定行数而非全量加载的场景。一次性读入几百兆的文件不仅耗时，还会占用大量内存。今天分享三种针对 Python 的快速读取方案，覆盖头部、尾部及任意位置的需求。

1. 读取文件头部若干行

这是最直观的场景。利用文件对象的迭代器或 readline 方法即可，注意使用上下文管理器自动关闭文件，避免资源泄露。

with open('test.txt', 'r', encoding='utf-8') as fp:
    N_lines = 9  # 设置需要读取的行数
    for _ in range(N_lines):
        line = fp.readline()
        if not line:  # 防止文件行数不足
            break
        print(line, end='')

这里用 with 语句替代了手动 close()，代码更简洁且安全。实际运行时如果文件行数少于设定值，记得加个判断，不然会报错。

2. 读取文件尾部若干行

处理尾部数据稍微复杂些，因为无法直接定位。思路是从文件末尾向前回溯，通过计算字节偏移量来定位起始行。这里采用分块读取的策略，避免一次性 seek 过大导致性能问题。

import os

def read_tail(file_path, n_lines):
    with open(file_path, 'rb') as f:  # 二进制模式便于 seek
        f.seek(0, 2)  # 移动到文件末尾
        file_size = f.tell()
        
        buffer_size = 1024 * 1024
        k = 1
        while k * buffer_size <= file_size:
            f.seek(-k * buffer_size, 2)
            lines = f.read()
            count = lines.count(b'\n')
            if count <= n_lines:
                k += 
            :
                
        
        f.seek(-k * buffer_size, )
        content = f.read().decode()
        lines_list = content.split()
        
         .join(lines_list[-n_lines:])

(read_tail(, ))

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

import csv
import pandas as pd

def load_data(file_path, skip_n, rows_n):
    # 统计总行数
    total_lines = sum(1 for _ in csv.reader(open(file_path)))
    # 跳过前 (total - skip_n) 行，读取 nrows_n 行
    data = pd.read_csv(
        file_path,
        engine='c',
        header=None,
        skiprows=total_lines - skip_n,
        nrows=rows_n
    )
    return data

# 从倒数第 9 行开始读取 9 行
data = load_data('test.txt', 9, 9)
print(data)

Python 高效读取数据文件指定行数方法

1. 读取文件头部若干行

2. 读取文件尾部若干行

更多推荐文章

相关免费在线工具

3. 读取文件任意位置若干行

更多推荐文章

相关免费在线工具

Python 高效读取数据文件指定行数方法

1. 读取文件头部若干行

2. 读取文件尾部若干行

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 读取文件任意位置若干行

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具