Dremio的Apache Arrow 和 Gandiva

优质文章学习记录

07 Apr 2026 — 3 min read

Apache Arrow 和 Gandiva 是 Dremio 查询引擎的“心脏”与“肌肉”，它们共同解决了传统分析系统在数据交换和计算效率上的根本瓶颈。

核心关系图：Dremio 的性能基石

 +-----------------------------------+ | Dremio 查询引擎 | | (SQL解析、优化、调度、执行) | +------------------+------------------+ | +---------------v---------------+ | **Gandiva 向量化执行层** | | (基于LLVM的表达式编译与计算) | +---------------+---------------+ | +---------------v---------------+ | **Apache Arrow 内存格式** | | (进程间/语言间零拷贝数据交换) | +---------------+---------------+ | +---------------v---------------+ | 底层数据源/反射存储 | | (Parquet, Iceberg, JDBC等) | +-------------------------------+

Apache Arrow：统一的内存数据标准

Arrow 不是一个存储格式，而是一个跨语言、跨系统的内存中数据表示标准。

核心问题与解决方案

传统痛点（序列化/反序列化地狱）：在 Spark、Pandas、Java、C++ 等不同组件间传递数据时，需要频繁进行昂贵的序列化（如 Java 对象 -> JSON/Protobuf）和反序列化，消耗大量 CPU 和内存，且格式转换复杂。
Arrow 的解决方案：定义一个标准化、语言无关、列式内存数据结构。所有支持 Arrow 的系统都“说同一种内存语言”。

关键特性

列式内存布局：与 Parquet 磁盘列存对应，极大优化了分析查询（只需读取相关列）。
零拷贝共享：不同进程/语言（如 Dremio 的 Java 执行器和 C++ 的 Gandiva）可以通过共享内存、内存映射文件或 RPC（Flight）直接访问同一块 Arrow 内存数据，无需序列化。
丰富的数据类型：支持复杂类型（List、Map、Struct）以及时间、小数等。
高效 IPC 机制：Arrow Flight 是基于 gRPC 的高性能数据传输协议，专为 Arrow 数据设计。

在 Dremio 中的应用

执行引擎内部：Dremio 的整个查询流水线（从读取器到运算符再到网络传输）都使用 Arrow 作为唯一的数据交换格式。算子间传递的是 Arrow RecordBatch，消除了 JVM 内不同数据结构转换的开销。
客户端返回：通过 ODBC/JDBC 或 Arrow Flight 返回给客户端的数据也是 Arrow 格式，客户端（如 Python 的 pyarrow）可以直接消费，效率极高。
反射存储：Dremio 的加速反射（Reflections）物理上以 Parquet + Arrow 元数据的形式存储，读取时可直接映射为 Arrow 内存格式。

Gandiva：基于 LLVM 的向量化表达式编译器

Gandiva 是建立在 Arrow 之上的高性能计算引擎，专门用于编译和执行 SQL 中的表达式（如 a + b * 10， UPPER(name)， WHERE date > '2023-01-01'）。

核心问题与解决方案

传统痛点（解释执

零成本搭建飞书机器人：手把手教你用Webhook实现高效消息推送

1. 为什么你需要一个飞书机器人？在日常工作中，我们经常需要处理各种通知需求。比如系统报警、任务提醒、审批结果通知等等。传统的解决方案包括短信、邮件或者第三方推送平台，但这些方式要么成本高，要么实时性差。飞书机器人提供了一种零成本、高效率的替代方案。我去年负责的一个ERP系统升级项目就遇到了这个问题。当时我们需要在关键业务流程节点给不同部门的同事发送实时通知。如果使用短信，按照每天200条计算，一个月就要花费上千元。后来我们改用飞书机器人，不仅完全免费，还能实现更丰富的消息格式和精准的@提醒功能。飞书机器人本质上是一个自动化程序，它通过Webhook技术接收外部系统的消息，并转发到指定的飞书群聊中。这种机制特别适合企业内部系统与飞书之间的集成，比如： * 运维报警通知 * 审批流程提醒 * 业务系统状态更新 * 日报/周报自动推送 * 数据监控预警 2. 5分钟快速创建你的第一个机器人创建飞书机器人非常简单，不需要任何开发经验。下面我以电脑端操作为例，手把手带你完成整个过程。首先打开飞书客户端，进入你想要添加机器人的群聊。点击右上角的"..."菜单，

【DeepSeek R1部署至RK3588】RKLLM转换→板端部署→局域网web浏览

本文为DeepSeek R1 7B 以qwen为底座的LLM在瑞芯微RK3588 SoC上的完整部署流程，记录从开发板驱动适配烧录开始，到最终的开发板终端访问模型和局域网web访问模型的完整流程，有不足之处希望大家共同讨论。文章目录 * 一、项目背景介绍 * 二、所需工具介绍 * 1.硬件工具 * 1.X86 PC虚拟机Ubuntu20.04 * 2. 准备NPU驱动为0.9.8的RK3588开发板 * 2.软件工具 * 三、获取.safetensors模型权重 * 四、safetensors转RKLLM * 1.转换环境搭建 * 2.模型转换 * 五、RKLLM模型板端部署及推理 * 六、集成开源gradio工具实现web访问一、项目背景介绍先来介绍下项目背景吧，目前有一个空闲的firefly出厂的搭载瑞芯微RK3588 SoC的arm64开发板，样式如图所示：博主之前主要进行CV领域的模型的RK开发板部署，对于LLM和VLM的接触并不算多，但现在大模型是趋势所向，并且瑞芯微及时的完成了针对各开源

all-MiniLM-L6-v2镜像免配置：预置WebUI+健康检查+标准化API接口

all-MiniLM-L6-v2镜像免配置：预置WebUI+健康检查+标准化API接口 1. 为什么你需要一个开箱即用的embedding服务你有没有遇到过这样的情况：项目刚起步，需要快速接入语义搜索或文本相似度计算，但光是部署一个embedding模型就卡在环境配置、依赖冲突、端口调试上？更别说还要自己搭Web界面、写健康检查、封装API——这些本该是基础设施的事，却成了压在开发进度上的三座大山。 all-MiniLM-L6-v2本身是个好模型：轻、快、准。但它不是“装完就能用”的工具，而是一块需要打磨的璞玉。我们做的，就是把这块玉雕琢成一把趁手的刀——不用你配环境、不用你写胶水代码、不用你调参试错。镜像启动即用，WebUI点开就测，API调用即返回，健康检查自动守护。这不是又一个“教你从零部署”的教程，而是一份交付物：你拿到的不是说明书，是已经组装好的整机。它不炫技，不堆参数，只解决一个最朴素的问题：让语义能力真正成为你项目里可调度、可验证、可运维的一环。 2. all-MiniLM-L6-v2：小身材，大用处

【Linux】Cookie与Session：Web用户状态管理的双刃剑

目录 1、认识cookie 1.1.cookie的定义 1.2.工作原理 1.3.cookie的分类： 2.认识cookie 2.1.cookie基本格式： 2.2.Cookie 的生命周期： 2.3.单独使用 Cookie，有什么问题？ 3.HTTP session 3.1.session的定义 3.2.session工作原理 3.3.session安全性： 3.4.session的超时和失效：总结： 1、认识cookie 1.1.cookie的定义 HTTP Cookie（也称为

核心关系图：Dremio 的性能基石

Apache Arrow：统一的内存数据标准

核心问题与解决方案

关键特性

在 Dremio 中的应用

Gandiva：基于 LLVM 的向量化表达式编译器

核心问题与解决方案

Read more

零成本搭建飞书机器人：手把手教你用Webhook实现高效消息推送

【DeepSeek R1部署至RK3588】RKLLM转换→板端部署→局域网web浏览

all-MiniLM-L6-v2镜像免配置：预置WebUI+健康检查+标准化API接口

【Linux】Cookie与Session：Web用户状态管理的双刃剑