现代 C++ 任务并行编程系统：Taskflow 详解 | 极客日志

C++AI算法

现代 C++ 任务并行编程系统：Taskflow 详解

介绍基于现代 C++ 的任务并行编程系统 Taskflow。首先分析并行计算背景，对比 CPU 与 GPU 性能差异及 Amdahl 定律限制。随后详细讲解 Taskflow 的核心概念，包括静态与动态任务图、控制流任务图（CTFG）以及工作窃取（Work-stealing）运行时机制。文中通过多个 C++ 代码示例展示了如何使用 Taskflow 实现并行归约、排序、流水线及异步任务调度，并探讨了其在异构架构下的可扩展性优势。

t ag发布于 2026/3/27更新于 2026/7/2047 浏览

一、Why Parallel Computing?

Advance performance to a new level previously out of reach 将性能提升到过去无法达到的水平。核心思想：随着单核 CPU 频率提升变慢（Dennard scaling 失效）， 性能提升的主要方式已经从'提高频率'转向'增加并行度'。也就是说：

以前：靠更快的单核
现在：靠更多核心 + GPU + 分布式

二、图表含义分析

图中表示：

Time (minutes) to speed up a machine learning algorithm 横轴：

1 CPU
8 CPUs
16 CPUs
24 CPUs
32 CPUs
40 CPUs
1 GPU

纵轴：

执行时间（分钟）

趋势：

随着 CPU 数量增加，时间下降
但 GPU 下降幅度更大
GPU 可以达到 10–100x 加速

三、为什么 GPU 可以 10–100 倍加速？

1⃣ 并行度数量差异

典型 CPU：

8–64 核
每核适合复杂逻辑

典型 GPU：

几千甚至上万个小核心
适合大规模数据并行

例如： CPU 并行度 ≈ 32 GPU 并行度 ≈ 5000

在高度可并行任务中（如矩阵乘法）：理论加速比 ≈ 5000 / 32 ≈ 156 当然实际不会达到理论值，但 10–100x 是常见的。

四、Amdahl 定律解释加速极限

并行加速并不是无限的。设：

P = 可并行部分比例
N = 并行处理器数量

Amdahl 定律： Speedup(N) = 1 / ((1-P) + P/N)

举例

假设： P = 0.95 (95% 可并行) 若使用 1000 个 GPU 核： Speedup = 1 / (0.05 + 0.95/1000) = 1 / (0.05 + 0.00095) = 1 / 0.05095 ≈ 19.6

即使有 1000 核，最多也只能约 20 倍加速。这说明：

串行部分是性能瓶颈

五、为什么机器学习特别适合 GPU？

机器学习核心是：

矩阵乘法
张量运算
向量运算
卷积
批量数据处理

这些都属于：

数据并行（Data Parallelism）

例如矩阵乘法： C_ij = ∑_k A_ik * B_kj 每个 C_ij 都可以独立计算：这意味着： O(n^2) 个元素可以并行这正是 GPU 擅长的结构。

六、为什么多 CPU 扩展不如 GPU？

1⃣ CPU 核心少 2⃣ 同步开销大 3⃣ 内存带宽限制 4⃣ NUMA 访问延迟 5⃣ 上下文切换开销

而 GPU：

大带宽显存
SIMT 架构
硬件级线程调度

#include <vector>
#include <omp.h>
#include <iostream>

// 模拟一个可并行计算任务
int main() {
    const int N = 100000000;
    std::vector<double> data(N, 1.0);
    double sum = 0.0;

    // 并行循环
    #pragma omp parallel for reduction(+:sum)
    for (int i = 0; i < N; ++i) {
        sum += data[i];
    }

    std::cout << "Sum = " << sum << std::endl;
}

#pragma omp parallel for

#include <iostream>
#include <omp.h>

// 模拟三个有依赖的任务
int main() {
    #pragma omp parallel {
        #pragma omp single {
            // 任务 A
            #pragma omp task {
                std::cout << "Task A running\n";
            }
            // 任务 B
            #pragma omp task {
                std::cout << "Task B running\n";
            }
            // 等待 A 和 B 完成
            #pragma omp taskwait
            // 任务 C 依赖 A 和 B
            #pragma omp task {
                std::cout << "Task C running after A and B\n";
            }
        }
    }
    return 0;
}

#pragma omp task

#pragma omp taskwait

 A
/ \
B C
\ /
 C

特性	数据并行	任务并行
结构	规则	不规则
依赖	很少	明确依赖
扩展性	好	更好
异构适配	一般	极好
表达能力	低	高

#include <iostream>
#include <taskflow/taskflow.hpp>

// 引入 Taskflow 头文件（header-only 库）
int main() {
    // 执行器：负责调度线程池执行任务
    tf::Executor executor;
    // 任务图对象：用来构建 DAG
    tf::Taskflow taskflow;

    // 创建四个任务（lambda 表达式）
    // emplace 会返回 task 句柄
    auto [A, B, C, D] = taskflow.emplace(
        // 任务 A
        [](){ std::cout << "TaskA\n"; },
        // 任务 B
        [](){ std::cout << "TaskB\n"; },
        // 任务 C
        [](){ std::cout << "TaskC\n"; },
        // 任务 D
        [](){ std::cout << "TaskD\n"; });

    // 定义依赖关系：
    // A 必须在 B 和 C 之前执行
    A.precede(B, C);
    // D 必须在 B 和 C 之后执行
    D.succeed(B, C);

    // 提交任务图到执行器，并等待执行完成
    executor.run(taskflow).wait();
    return 0;
}

A.precede(B, C); D.succeed(B, C);

 A
/ \
B C
\ /
 D

#pragma omp task

auto [A,B,C,D] = taskflow.emplace(
    [](){ std::this_thread::sleep_for(std::chrono::milliseconds(100)); std::cout<<"A\n";},
    [](){ std::this_thread::sleep_for(std::chrono::milliseconds(200)); std::cout<<"B\n";},
    [](){ std::this_thread::sleep_for(std::chrono::milliseconds(200)); std::cout<<"C\n";},
    [](){ std::cout<<"D\n";});

#include <iostream>
#include <taskflow/taskflow.hpp>

// Taskflow 是 header-only
int main() {
    // 创建执行器（内部是线程池）
    tf::Executor executor;
    // 创建任务 A（无依赖）
    auto A = executor.silent_dependent_async([](){ std::cout << "TaskA\n";});
    // 创建任务 B（依赖 A）
    auto B = executor.silent_dependent_async([](){ std::cout << "TaskB\n";}, A);
    // 创建任务 C（依赖 A）
    auto C = executor.silent_dependent_async([](){ std::cout << "TaskC\n";}, A);
    // 创建任务 D（依赖 B 和 C）
    auto D = executor.silent_dependent_async([](){ std::cout << "TaskD\n";}, B, C);
    // 等待所有任务完成
    executor.wait_for_all();
    return 0;
}

 A
/ \
B C
\ /
 D

静态 Taskflow	动态 async
taskflow.emplace	silent_dependent_async
先构建 DAG	边创建边执行
run(taskflow)	直接提交到 executor
适合结构固定	适合运行时动态生成

silent_dependent_async(task, dependencies...)

auto A = executor.silent_dependent_async([&executor](){ std::cout<<"TaskA\n";
    // 在 A 运行期间创建新任务
    executor.silent_dependent_async([](){ std::cout<<"Dynamic task\n";});
});

auto [init, cond, yes, no] = taskflow.emplace(...);

#include <iostream>
#include <taskflow/taskflow.hpp>

int main() {
    tf::Executor executor;
    tf::Taskflow taskflow;

    // 创建 4 个任务
    auto [init, cond, yes, no] = taskflow.emplace(
        // 初始化任务
        [](){ std::cout << "initialize\n"; },
        // 条件任务（Condition Task）
        // 返回值决定走哪条分支
        []()->int{ std::cout << "checking condition\n"; return 0; /* 返回 0 走 yes，返回 1 走 no */ },
        // yes 分支
        [](){ std::cout << "yes branch\n"; },
        // no 分支
        [](){ std::cout << "no branch\n"; });

    // 依赖关系定义
    // cond 必须在 init 后执行
    cond.succeed(init);
    // cond 决定执行 yes 或 no
    cond.precede(yes, no);

    executor.run(taskflow).wait();
    return 0;
}

initialize();
while(!converged()){
    optimize();
}
print("done");

#include <iostream>
#include <taskflow/taskflow.hpp>

bool converged(){
    static int count = 0;
    return ++count > 3; // 模拟 3 次后收敛
}

int main() {
    tf::Executor executor;
    tf::Taskflow taskflow;

    auto [init, opt, cond, stop] = taskflow.emplace(
        // 初始化数据结构
        [](){ std::cout << "initialize data\n"; },
        // 优化步骤
        [](){ std::cout << "optimize step\n"; },
        // 条件任务（返回分支编号）
        []()->int{return converged()?1:0; },
        // 收敛后停止
        [](){ std::cout << "done!\n"; });

    // 执行顺序：opt.succeed(init).precede(cond)
    // cond:
    // 返回 0 → 回到 opt
    // 返回 1 → 进入 stop
    cond.precede(opt, stop);

    executor.run(taskflow).wait();
    return 0;
}

 init
   |
   v
 opt
   |
   v
 cond
 / \ 
opt stop

while(!converged()){
    optimize();
}

特性	数据并行	CTFG
表达能力	低	高
控制流	无	有
适合复杂算法	否	是
异构友好	一般	极好

Start → CheckEmpty

while(true){
    if(queue.empty()){ wait_or_steal(); }
    else{ execute_task(); }
}

CheckEmpty -- Y --> Wait

CheckEmpty -- N --> Dequeue

t = queue.pop_front();

IsCondition{Condition task?}

r = invoke(t)
enqueue r-th child

int r = t(); // 执行条件函数
enqueue(t.child(r));

invoke(t)
↓
DecDeps
↓
EnqueueSuccessors

invoke(t);
for(auto s : successors(t)){
    s.remaining_deps--;
    if(s.remaining_deps == 0) enqueue(s);
}

void worker_loop(){
    while(true){
        Task* t = pop_local();
        if(!t){
            t = steal_from_others();
            if(!t){ sleep(); continue; }
        }
        if(t->is_condition()){
            int r = t->invoke();
            enqueue(t->child(r));
        } else {
            t->invoke();
            for(auto s : t->successors){
                if(--s->remaining_deps == 0) enqueue(s);
            }
        }
    }
}

#include <iostream>
#include <taskflow/taskflow.hpp>

// Taskflow 是 header-only 库
int main() {
    // 创建执行器（内部维护线程池）
    tf::Executor executor;
    // 创建主任务图
    tf::Taskflow taskflow;

    // 创建主图中的任务 A
    tf::Task A = taskflow.emplace([](){ std::cout << "Task A\n"; }).name("A");
    // 创建主图中的任务 C
    tf::Task C = taskflow.emplace([](){ std::cout << "Task C\n"; }).name("C");
    // 创建主图中的任务 D
    tf::Task D = taskflow.emplace([](){ std::cout << "Task D\n"; }).name("D");

    // 创建任务 B（包含一个子任务图 Subflow）
    tf::Task B = taskflow.emplace([](tf::Subflow& subflow){
        std::cout << "Task B (start)\n";
        // 在 B 内部创建子任务 B1
        tf::Task B1 = subflow.emplace([](){ std::cout << "Task B1\n"; }).name("B1");
        // 子任务 B2
        tf::Task B2 = subflow.emplace([](){ std::cout << "Task B2\n"; }).name("B2");
        // 子任务 B3
        tf::Task B3 = subflow.emplace([](){ std::cout << "Task B3\n"; }).name("B3");

        // 依赖关系：
        // B3 必须在 B1 和 B2 执行完成后执行
        B3.succeed(B1, B2);
        std::cout << "Task B (end)\n";
    }).name("B");

    // 主任务图依赖关系：
    // A 必须在 B 和 C 之前执行
    A.precede(B, C);
    // D 必须在 B 和 C 之后执行
    D.succeed(B, C);

    // 执行任务图并等待完成
    executor.run(taskflow).wait();
    return 0;
}

 A
/ \
B C
\ /
 D

 B1 B2
 \ /
  B3

subflow.detach();

graph TD %% 主任务图
A["任务 A"] --> B["任务 B"]
A --> C["任务 C"]
B --> D["任务 D"]
C --> D
%% 子任务图 B 内部
subgraph B 子任务图
B1["任务 B1"] --> B3["任务 B3"]
B2["任务 B2"] --> B3
B3 --> B
end
%% 样式美化
style A fill:#ffcc00,stroke:#333,stroke-width:2px
style B fill:#66ccff,stroke:#333,stroke-width:2px
style C fill:#ff99cc,stroke:#333,stroke-width:2px
style D fill:#99ff99,stroke:#333,stroke-width:2px
style B1 fill:#ccff99,stroke:#333
style B2 fill:#ccff99,stroke:#333
style B3 fill:#ccff99,stroke:#333

#include <taskflow/taskflow.hpp>
// Taskflow 是头文件库
#include <iostream>
#include <cstdlib> // std::rand()
#include <ctime> // std::time()

int main() {
    // 初始化随机数种子
    std::srand(static_cast<unsigned>(std::time(nullptr)));

    // 创建 Taskflow 执行器和任务流
    tf::Executor executor;
    tf::Taskflow taskflow;

    // -------------------------
    // Step 1: 初始化任务
    // -------------------------
    tf::Task init = taskflow.emplace([](){ std::cout << "初始化任务 init\n"; }).name("init");

    // -------------------------
    // Step 2: 停止任务
    // -------------------------
    tf::Task stop = taskflow.emplace([](){ std::cout << "结束任务 stop\n"; }).name("stop");

    // -------------------------
    // Step 3: 条件任务 (Condition Task)
    // 返回随机 0 或 1，用于控制流程
    // 0 -> 反馈回 cond（循环）
    // 1 -> 结束 stop
    // -------------------------
    tf::Task cond = taskflow.emplace([](){
        int r = std::rand()%2;
        std::cout << "条件任务 cond 返回：" << r << "\n";
        return r;
    }).name("cond");

    // -------------------------
    // Step 4: 构建任务依赖关系
    // -------------------------
    init.precede(cond); // init 任务在 cond 前执行
    // cond 返回 0 或 1 决定下一步：
    // 0 -> 再次执行 cond（形成循环）
    // 1 -> 执行 stop
    cond.precede(cond, stop);

    // -------------------------
    // Step 5: 运行任务流
    // -------------------------
    executor.run(taskflow).wait();
    return 0;
}

#include <taskflow/taskflow.hpp>
// Taskflow header-only
#include <iostream>

int main() {
    // ---------------------------
    // 创建子任务流 f1
    // ---------------------------
    tf::Taskflow f1;
    tf::Task f1A = f1.emplace([](){ std::cout << "Task f1A\n"; }).name("f1A");
    tf::Task f1B = f1.emplace([](){ std::cout << "Task f1B\n"; }).name("f1B");
    // f1A 先于 f1B
    f1A.precede(f1B);

    // ---------------------------
    // 创建主任务流 f2
    // ---------------------------
    tf::Taskflow f2;
    // 普通任务
    tf::Task f2A = f2.emplace([](){ std::cout << "Task f2A\n"; }).name("f2A");
    tf::Task f2B = f2.emplace([](){ std::cout << "Task f2B\n"; }).name("f2B");
    tf::Task f2C = f2.emplace([](){ std::cout << "Task f2C\n"; }).name("f2C");

    // 模块任务，将子任务流 f1 嵌入 f2
    tf::Task f1_module_task = f2.composed_of(f1).name("module");

    // 模块任务与其他任务的依赖关系
    f1_module_task.succeed(f2A, f2B); // module 之后执行 f2A 和 f2B
    f1_module_task.precede(f2C);      // module 之前执行 f2C

    // ---------------------------
    // 创建执行器并运行 f2
    // ---------------------------
    tf::Executor executor;
    executor.run(f2).wait();
    return 0;
}

#include <taskflow/taskflow.hpp>
// Taskflow header-only
#include <iostream>
#include <future>

int main() {
    // 创建一个 Executor 对象，用于运行异步任务
    tf::Executor executor;

    // -------------------------------
    // 1. 创建普通异步任务，返回值类型为 int
    // executor.async 会返回 std::future<int>
    std::future<int> future = executor.async([](){
        std::cout << "async task returns 1\n";
        return 1; // 返回值
    });

    // -------------------------------
    // 2. 创建普通异步任务，不返回值
    executor.silent_async([](){
        std::cout << "async task does not return\n";
    });

    // -------------------------------
    // 3. 创建带依赖关系的异步任务（动态任务图）
    // silent_dependent_async 可以让任务依赖于其他任务
    tf::AsyncTask A = executor.silent_dependent_async([](){ std::cout << "Task A\n"; });
    tf::AsyncTask B = executor.silent_dependent_async([](){ std::cout << "Task B\n"; }, A); // B 在 A 完成后执行
    tf::AsyncTask C = executor.silent_dependent_async([](){ std::cout << "Task C\n"; }, A); // C 在 A 完成后执行
    tf::AsyncTask D = executor.silent_dependent_async([](){ std::cout << "Task D\n"; }, B, C); // D 在 B 和 C 完成后执行

    // -------------------------------
    // 等待所有异步任务完成
    executor.wait_for_all();

    // -------------------------------
    // 获取 future 的返回值
    int result = future.get();
    std::cout << "Future result: " << result << "\n";
    return 0;
}

#include <taskflow/taskflow.hpp>
// Taskflow header-only
#include <iostream>

int main() {
    tf::Executor executor;
    tf::Taskflow taskflow;

    // 创建三个简单任务
    auto A = taskflow.emplace([](){ std::cout << "Task A\n"; }).name("A");
    auto B = taskflow.emplace([](){ std::cout << "Task B\n"; }).name("B");
    auto C = taskflow.emplace([](){ std::cout << "Task C\n"; }).name("C");

    // 设置依赖关系
    A.precede(B, C); // A 先于 B 和 C 执行

    // 1⃣ 运行一次 taskflow
    tf::Future<void> run_once = executor.run(taskflow);
    run_once.get(); // 等待完成

    // 2⃣ 运行 4 次
    executor.run_n(taskflow, 4);

    // 3⃣ 运行直到计数器为 0
    executor.run_until(taskflow, [counter=5]() mutable{return --counter == 0;});

    // 阻塞等待所有提交的 taskflow 完成
    executor.wait_for_all();
    return 0;
}

#include <taskflow/taskflow.hpp>
#include <taskflow/algorithm/reduce.hpp>
#include <taskflow/algorithm/sort.hpp>
#include <taskflow/algorithm/for_each.hpp>
#include <vector>
#include <iostream>

int main() {
    tf::Executor executor;
    tf::Taskflow taskflow;
    std::vector<int> data(10, 0); // 创建长度为 10 的数组，初始化为 0
    int init_sum = 0;

    // 1⃣ 并行赋值：将每个元素设置为 100
    tf::Task task1 = taskflow.for_each(
        data.begin(), data.end(),
        [](auto& i){ i = 100; }
    ).name("Parallel ForEach");

    // 2⃣ 并行归约：对所有元素求和
    tf::Task task2 = taskflow.reduce(
        data.begin(), data.end(), init_sum,
        [](auto a, auto b){ return a + b; }
    ).name("Parallel Reduce");

    // 3⃣ 并行排序：对数组排序
    tf::Task task3 = taskflow.sort(
        data.begin(), data.end(),
        [](auto a, auto b){ return a < b; }
    ).name("Parallel Sort");

    // 设置依赖关系
    task1.precede(task2); // 先并行赋值，再归约
    task2.precede(task3); // 再并行排序

    // 执行任务流
    executor.run(taskflow).wait();

    // 输出最终数组
    std::cout << "Sorted data: ";
    for(auto v : data) std::cout << v << " ";
    std::cout << std::endl;
    return 0;
}

#include <taskflow/taskflow.hpp>
#include <taskflow/algorithm/pipeline.hpp>
#include <vector>
#include <cstdio>

int main() {
    tf::Executor executor;
    tf::Taskflow taskflow;
    const size_t num_parallel_lines = 5; // 并行 pipeline 的 token 数量
    std::vector<int> buffer(num_parallel_lines, 0);

    // 创建 pipeline
    tf::Pipeline pl(
        num_parallel_lines,
        // Stage 1: 初始化 token
        tf::Pipe{
            tf::PipeType::SERIAL,
            [&buffer](tf::Pipeflow& pf){
                buffer[pf.line()] = static_cast<int>(pf.token());
                printf("stage 1: token %zu stored in buffer[%zu]\n", pf.token(), pf.line());
                if(pf.token() == 5){
                    pf.stop(); // 当 token = 5 时停止 pipeline
                }
            }
        },
        // Stage 2: 处理 token
        tf::Pipe{
            tf::PipeType::SERIAL,
            [&buffer](tf::Pipeflow& pf){
                printf("stage 2: input buffer[%zu] = %d\n", pf.line(), buffer[pf.line()]);
                buffer[pf.line()] += 10; // 模拟处理
            }
        },
        // Stage 3: 输出 token
        tf::Pipe{
            tf::PipeType::SERIAL,
            [&buffer](tf::Pipeflow& pf){
                printf("stage 3: input buffer[%zu] = %d\n", pf.line(), buffer[pf.line()]);
            }
        }
    );

    // 将 pipeline 添加到任务流
    taskflow.composed_of(pl);

    // 执行任务流
    executor.run(taskflow).wait();
    return 0;
}

现代 C++ 任务并行编程系统：Taskflow 详解

一、Why Parallel Computing?

二、图表含义分析

三、为什么 GPU 可以 10–100 倍加速？

1⃣ 并行度数量差异

四、Amdahl 定律解释加速极限

举例

五、为什么机器学习特别适合 GPU？

六、为什么多 CPU 扩展不如 GPU？

七、理论 vs 实际

八、一个简单 C++ 并行示例（OpenMP）

说明

九、并行计算的核心价值

十、总结

一、Why Task-parallel Programming?

核心问题

二、异构架构背景

三、什么是 Task Parallelism？

数据并行

任务并行

四、任务图模型

关键指标

1⃣ 总工作量（Work）

2⃣ 关键路径长度（Span）

3⃣ 理论并行上限

五、为什么任务并行更可扩展？

六、任务分解的思想

七、实际系统示例

OpenMP

Kokkos

TBB

StarPU

DASK

PaRSEC

RAY

八、OpenMP 任务并行示例（带详细注释）

解释

九、GPU + CPU 混合任务示意

十、任务并行 vs 数据并行对比

十一、为什么说'最可扩展'？

十二、总结

Taskflow 静态任务图并行（Static Task Graph Parallelism）

一、什么是 Taskflow？

二、什么是 Static Task Graph？

五、任务图结构解析

DAG 图结构

六、执行顺序分析

七、为什么 Taskflow 是'静态任务图'？

八、Taskflow 设计优势

1⃣ 表达能力强

2⃣ 自动调度

九、和 OpenMP 对比

十、线程池模型

十一、关键路径决定性能

十二、扩展示例（加入耗时）

十三、总结

https://godbolt.org/z/1cGrajrz9

Taskflow 动态任务图并行（Dynamic Task Graph Parallelism）

一、什么是动态任务图（Dynamic Task Graph）？

二、动态任务图的数学模型

三、代码示例（修正版 + 详细注释）

四、DAG 结构分析

五、执行流程解析

六、与静态任务图的区别

七、关键性能分析

八、silent_dependent_async 的含义

九、为什么叫'动态'？

十、调度模型（Work-Stealing）

十一、动态模型适用场景

十二、与 std::async 对比

十三、总结

https://godbolt.org/z/vhEExTh4Y

Control Taskflow Graph (CTFG) 编程模型

一、什么是 CTFG（Control Taskflow Graph）？

二、第一个例子：条件分支（if-else）

完整示例：CTFG 条件任务

三、条件任务的数学模型

四、CTFG 循环优化示例

完整 CTFG 实现版本

五、循环的任务图结构