Python 面试核心知识点：模块、包、装饰器及爬虫解析 | 极客日志

Python算法

Python 面试核心知识点：模块、包、装饰器及爬虫解析

Python 面试常见问题涵盖模块与包的组织结构、字符串反转技巧、面向对象特殊方法、爬虫验证码处理、Scrapy 管道机制、类继承原理、repr 与 str 区别、装饰器实现、asyncio 异步编程以及 os.path 路径操作。内容包含代码示例、注意事项及面试官深入提问，帮助求职者掌握核心知识点并应对技术面试挑战。

dehua dong发布于 2026/3/22更新于 2026/7/732 浏览

1. 请解释 Python 中的模块和包。

回答

在 Python 中，模块和包是组织代码的重要工具，它们有助于代码的重用和结构化。

模块 (Module)

模块是一个包含 Python 代码的文件，通常以 .py 作为文件扩展名。模块可以定义函数、类和变量，也可以包含可执行的代码。通过模块，可以将相关的功能分组到一个文件中，从而使得代码更加结构化和可维护。

创建和使用模块

使用模块：在其他 Python 文件或解释器中，可以使用 import 语句导入模块：

import mymodule
print(mymodule.greet("Alice"))
print(mymodule.pi)

创建模块：你可以创建一个 Python 文件（例如 mymodule.py），并在其中定义函数或变量：

# mymodule.py
def greet(name):
    return f"Hello, {name}!"
pi = 3.14159

包 (Package)

包是一种组织多个模块的方式。它实际上是一个包含多个模块的文件夹，同时该文件夹下应该包含一个子文件 __init__.py（可以是空的），这个文件告诉 Python 将该文件夹视为一个包。包可以帮助层次化地组织模块，从而便于管理较大的项目。

创建和使用包

使用包：在其他文件中，可以使用 import 语句导入包中的模块：

from mypackage import module1, module2
print(module1.func1())
print(module2.func2())

创建包：你可以创建一个文件夹，例如 mypackage，并在其中放入多个模块（如 module1.py 和 module2.py），同时在文件夹下创建一个 __init__.py 文件：

mypackage/
__init__.py
module1.py
module2.py

module1.py 可以是：

def func1():
    return

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

def func2():
    return "Function 2"

reversed_string = original_string[::-1]

from PIL import Image
import pytesseract
img = Image.open('captcha.png')
captcha_text = pytesseract.image_to_string(img)

import requests
import time

# 发送验证码到 2Captcha
response = requests.post('http://2captcha.com/in.php', data={'key':'YOUR_API_KEY','method':'post','json':1,'file':open('captcha.png','rb'),})
captcha_id = response.json().get('request')

# 等待验证码处理完成
for _ in range(30): # 最多等 30 秒
    time.sleep(5)
    response = requests.get(f'http://2captcha.com/res.php?key=YOUR_API_KEY&action=get&id={captcha_id}&json=1')
    if response.json()['status'] == 1:
        captcha_text = response.json()['request']
        break
print(captcha_text)

ITEM_PIPELINES = {
    'myproject.pipelines.MyPipeline': 300,
}

class MyPipeline:
    def open_spider(self, spider):
        self.file = open('output.json', 'w')

    def close_spider(self, spider):
        self.file.close()

    def process_item(self, item, spider):
        # 对 Item 进行处理，例如清洗数据
        item['field'] = item['field'].strip()
        # 将处理后的 Item 写入文件或数据库
        line = json.dumps(dict(item)) + "\n"
        self.file.write(line)
        return item

# 定义一个父类（基类）
class Animal:
    def __init__(self, name):
        self.name = name

    def speak(self):
        return "I am an animal."

# 定义一个子类（派生类），从 Animal 继承
class Dog(Animal):
    def speak(self):
        return "Woof! My name is " + self.name

# 定义另一个子类（派生类），从 Animal 继承
class Cat(Animal):
    def speak(self):
        return "Meow! My name is " + self.name

# 实例化对象
dog = Dog("Buddy")
cat = Cat("Whiskers")

# 调用方法
print(dog.speak())  # 输出：Woof! My name is Buddy
print(cat.speak())  # 输出：Meow! My name is Whiskers

class Example:
    def __init__(self, value):
        self.value = value

    def __repr__(self):
        return f'Example(value={self.value!r})'

obj = Example(42)
print(repr(obj))  # 输出：Example(value=42)

class Example:
    def __init__(self, value):
        self.value = value

    def __str__(self):
        return f'The value is {self.value}'

obj = Example(42)
print(str(obj))  # 输出：The value is 42
print(obj)       # 输出：The value is 42, 因为 print() 内部调用了 __str__

import time

# 定义装饰器
def timing_decorator(func):
    def wrapper(*args, **kwargs):
        start_time = time.time()  # 记录开始时间
        result = func(*args, **kwargs)  # 调用原函数
        end_time = time.time()  # 记录结束时间
        print(f"Function {func.__name__} took {end_time - start_time:.4f} seconds")
        return result  # 返回原函数的返回值
    return wrapper

# 使用装饰器
@timing_decorator
def example_function(n):
    total = 0
    for i in range(n):
        total += i
    return total

# 调用被装饰的函数
result = example_function(1000000)
print(f"Result: {result}")

async def main():
    task = asyncio.create_task(greet())
    await task
    asyncio.run(main())

import asyncio

async def greet():
    print("Hello!")
    await asyncio.sleep(1)  # 模拟非阻塞 I/O
    print("World!")

import asyncio
import aiohttp

async def fetch(url):
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as response:
            return await response.text()

async def main():
    urls = ['https://example.com' for _ in range(5)]
    tasks = [fetch(url) for url in urls]
    results = await asyncio.gather(*tasks)
    for content in results:
        print(content)

if __name__ == '__main__':
    asyncio.run(main())

os.path.samefile(path1, path2)

os.path.normpath(path)

os.path.split(path)

os.path.splitext(path)

os.path.exists(path)

os.path.isfile(path)

os.path.isdir(path)

os.path.abspath(path)

os.path.basename(path)

os.path.dirname(path)

os.path.join(path1, path2,...)

import os
file_dir = os.path.join('folder', 'subfolder')
file_path = os.path.join(file_dir, 'file.txt')
if os.path.isfile(file_path):
    with open(file_path, 'r') as f:
        content = f.read()

import os
base_dir = 'my_directory'
for root, dirs, files in os.walk(base_dir):
    for file in files:
        full_path = os.path.join(root, file)
        print(full_path)

import os
file_path = 'example.txt'
name, ext = os.path.splitext(file_path)
print(f'Name: {name}, Extension: {ext}')

Python 面试核心知识点：模块、包、装饰器及爬虫解析

1. 请解释 Python 中的模块和包。

回答

模块 (Module)

创建和使用模块

包 (Package)

创建和使用包

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

总结

注意点和建议：

面试官可能的深入提问：

2. 一行代码反转字符串

回答

注意点和建议：

面试官可能的深入提问：

3. 列举面向对象中带双下划线的特殊方法，如：new、init？

回答

注意点和建议：

面试官可能的深入提问：

4. 数据爬虫中遇到验证码的解决？

回答

1. 手动处理验证码

2. 使用第三方服务

3. 图像识别技术

4. 使用 Selenium 等工具

5. 变换 IP 或请求头

6. 使用无头浏览器

7. 遵循网站礼仪

8. 检查 robots.txt

示例代码（使用 2Captcha）

总结

注意点和建议：

面试官可能的深入提问：

5. Scrapy 中的 pipelines 工作原理？

回答

1. Pipeline 的定义

2. 启用 Pipeline

3. Pipeline 的工作流程

4. 数据处理示例

5. 数据存储

总结

注意点和建议：

建议：

常见误区：

面试官可能的深入提问：

6. 类如何从 Python 中的另一个类继承？

回答

解释：

注意点和建议：

面试官可能的深入提问：

7. 请解释 Python 中的 __repr__ 和 __str__ 方法之间的区别。

回答

__repr__ 方法

__str__ 方法

小结

注意点和建议：

面试官可能的深入提问：

8. 如何在 Python 中实现一个简单的装饰器？

回答

装饰器的基本结构

示例：时间记录装饰器

代码解析

注意点和建议：

面试官可能的深入提问：

9. 解释 Python 中的 asyncio 模块及其用途。

回答

主要概念和特点

用途

示例

总结

注意点和建议：

面试官可能的深入提问：

10. 请解释 Python 中的 os.path 模块提供的功能及其在文件路径操作中的应用。

回答

os.path 模块提供的主要功能

在文件路径操作中的应用

例子 1：读取文件

例子 2：遍历目录

7. 请解释 Python 中的 `repr` 和 `str` 方法之间的区别。

`repr` 方法

`str` 方法

10. 请解释 Python 中的 `os.path` 模块提供的功能及其在文件路径操作中的应用。

`os.path` 模块提供的主要功能