PyFlink 依赖配置指南：JAR、Python 包与虚拟环境集成 | 极客日志

PythonAIjava

PyFlink 依赖配置指南：JAR、Python 包与虚拟环境集成

PyFlink 混用 DataStream 与 Table API 时依赖配置复杂。介绍如何通过 StreamExecutionEnvironment 统一指定 JAR、Python 包及 requirements。涵盖 pipeline.jars 上传策略、离线 pip 缓存安装、虚拟环境打包归档以及解释器路径设置。针对有网/无网集群场景提供工程化组合方案，并列出常见坑点如版本不一致或路径不可达问题，确保作业在远程集群稳定运行。

刀狂发布于 2026/3/21更新于 2026/6/636 浏览

1. 先记住一条总原则：混用 DataStream + Table 时，用 DataStream API 配依赖

文档强调了一句非常关键的话：

如果一个 Job 里混用了 Python DataStream API 和 Python Table API，建议通过 DataStream API 去指定依赖，这样两边都能生效。

也就是：

纯 Table：table_env.get_config() / table_env.add_python_*
混用：优先 StreamExecutionEnvironment 的 add_jars / add_python_file / set_python_requirements / add_python_archive / set_python_executable

2. JAR 依赖：pipeline.jars vs pipeline.classpaths vs add_jars vs add_classpaths

2.1 Table API 方式

A）`pipeline.jars`：上传到集群（最常用）

只能 file:// 本地路径
会把 JAR 上传到集群

table_env.get_config().set("pipeline.jars","file:///my/jar/path/connector.jar;file:///my/jar/path/json.jar")

Windows 示例（注意还是 file:///）：

table_env.get_config().set("pipeline.jars","file:///E:/my/jar/path/connector.jar;file:///E:/my/jar/path/json.jar")

B）`pipeline.classpaths`：不上传，只加到 classpath（要求集群也能访问同路径）

你必须保证 client、cluster 都能访问这些 URL（比如共享盘、同目录、分发好了）

table_env.get_config().set("pipeline.classpaths","file:///opt/flink/jars/connector.jar;file:///opt/flink/jars/json.jar")

一句话：

你不想折腾分发：用 pipeline.jars
你已经把 jar 管理好并且集群路径一致：用 pipeline.classpaths

2.2 DataStream API 方式（混用场景首选）

A）`add_jars(...)`：上传到集群

env.add_jars("file:///my/jar/path/connector1.jar",)

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Keycode 信息
查找任何按下的键的javascript键代码、代码、位置和修饰符。在线工具，Keycode 信息在线工具，online
Escape 与 Native 编解码
JavaScript 字符串转义/反转义；Java 风格 \uXXXX（Native2Ascii）编码与解码。在线工具，Escape 与 Native 编解码在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
JavaScript / HTML 格式化
使用 Prettier 在浏览器内格式化 JavaScript 或 HTML 片段。在线工具，JavaScript / HTML 格式化在线工具，online
JavaScript 压缩与混淆
Terser 压缩、变量名混淆，或 javascript-obfuscator 高强度混淆（体积会增大）。在线工具，JavaScript 压缩与混淆在线工具，online

env.add_classpaths("file:///opt/flink/jars/connector1.jar","file:///opt/flink/jars/connector2.jar")

table_env.add_python_file("/path/to/my_udf.py")
table_env.add_python_file("/path/to/my_pkg/") # 目录也可以

env.add_python_file("/path/to/my_udf.py")
env.add_python_file("/path/to/my_pkg/")

table_env.set_python_requirements(
    requirements_file_path="/path/to/requirements.txt",
    requirements_cache_dir="cached_dir" # 可选
)

env.set_python_requirements(
    requirements_file_path="/path/to/requirements.txt",
    requirements_cache_dir="cached_dir"
)

pip download -d cached_dir -r requirements.txt --no-binary :all:

table_env.add_python_archive("/path/to/py_env.zip","myenv")

env.add_python_archive("/path/to/py_env.zip","myenv")

def my_udf():
    with open("myenv/py_env/data/data.txt") as f:
        ...

table_env.add_python_archive("/path/to/py_env.zip") # UDF 内访问：open("py_env.zip/py_env/data/data.txt")

table_env.get_config().set_python_executable("/path/to/python")

env.set_python_executable("/path/to/python")

env.add_python_archive("/path/to/py_env.zip","venv")
env.set_python_executable("venv/py_env/bin/python")

tEnv.executeSql("create temporary system function add_one as 'add_one.add_one' language python");

PyFlink 依赖配置指南：JAR、Python 包与虚拟环境集成

1. 先记住一条总原则：混用 DataStream + Table 时，用 DataStream API 配依赖

2. JAR 依赖：pipeline.jars vs pipeline.classpaths vs add_jars vs add_classpaths

2.1 Table API 方式

A）`pipeline.jars`：上传到集群（最常用）

B）`pipeline.classpaths`：不上传，只加到 classpath（要求集群也能访问同路径）

2.2 DataStream API 方式（混用场景首选）

A）`add_jars(...)`：上传到集群

更多推荐文章

相关免费在线工具

B）`add_classpaths(...)`：加到 client + cluster classpath（同样要求可达）

2.3 提交参数 `--jarfile` 的限制

3. Python 依赖：三种层级（文件/目录、requirements、归档环境）

3.1 python.files / add_python_file：带'代码/包'到 PYTHONPATH

3.2 requirements.txt / set_python_requirements：让集群 pip 安装第三方依赖

离线安装（集群没网）怎么做？

3.3 python.archives / add_python_archive：带'环境/数据/模型文件'并自动解压

4. Python 解释器：worker 端与 client 端是两回事

4.1 worker 端 Python：python.executable / set_python_executable

解释器放在 archive 里（推荐'自带环境'打法）

4.2 client 端 Python：python.client.executable / --pyClientExecutable

5. 在 Java/SQL 里用 Python UDF：依赖还是走 Python 那套配置

6. 一套工程化推荐组合（拿去就能用）

场景 A：集群能上网（最省事）

场景 B：集群没网（企业内网最常见）

场景 C：你要'零环境依赖'的可移植作业（最稳）

7. 最常见的坑清单（提前避雷）

更多推荐文章

相关免费在线工具

PyFlink 依赖配置指南：JAR、Python 包与虚拟环境集成

1. 先记住一条总原则：混用 DataStream + Table 时，用 DataStream API 配依赖

2. JAR 依赖：pipeline.jars vs pipeline.classpaths vs add_jars vs add_classpaths

2.1 Table API 方式

A）pipeline.jars：上传到集群（最常用）

B）pipeline.classpaths：不上传，只加到 classpath（要求集群也能访问同路径）

2.2 DataStream API 方式（混用场景首选）

A）add_jars(...)：上传到集群

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

B）add_classpaths(...)：加到 client + cluster classpath（同样要求可达）

2.3 提交参数 --jarfile 的限制

3. Python 依赖：三种层级（文件/目录、requirements、归档环境）

3.1 python.files / add_python_file：带'代码/包'到 PYTHONPATH

3.2 requirements.txt / set_python_requirements：让集群 pip 安装第三方依赖

离线安装（集群没网）怎么做？

3.3 python.archives / add_python_archive：带'环境/数据/模型文件'并自动解压

4. Python 解释器：worker 端与 client 端是两回事

4.1 worker 端 Python：python.executable / set_python_executable

解释器放在 archive 里（推荐'自带环境'打法）

4.2 client 端 Python：python.client.executable / --pyClientExecutable

5. 在 Java/SQL 里用 Python UDF：依赖还是走 Python 那套配置

6. 一套工程化推荐组合（拿去就能用）

场景 A：集群能上网（最省事）

场景 B：集群没网（企业内网最常见）

场景 C：你要'零环境依赖'的可移植作业（最稳）

7. 最常见的坑清单（提前避雷）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

A）`pipeline.jars`：上传到集群（最常用）

B）`pipeline.classpaths`：不上传，只加到 classpath（要求集群也能访问同路径）

A）`add_jars(...)`：上传到集群

B）`add_classpaths(...)`：加到 client + cluster classpath（同样要求可达）

2.3 提交参数 `--jarfile` 的限制