AnythingLLM+DeepSeek R1 本地知识库数据分析实战

AnythingLLM + DeepSeek R1 本地知识库数据分析实战

本文介绍如何利用 AnythingLLM 结合 DeepSeek R1 模型构建本地知识库，并实现高效的数据分析能力。通过实际案例演示，展示 AI 在处理 Excel 数据、生成报表及提供战略建议方面的表现。

一、数据准备与上传

1. 数据格式要求

为了获得最佳的分析效果，建议准备结构清晰的 Excel 文件。虽然 AnythingLLM 具备较强的解析能力，但规范的数据能显著提升准确率。

Sheet 结构：每个 Sheet 代表一个时间周期或数据集（例如 2023 年、2024 年）。
列定义：包含明确的维度（如市场、品类）和度量值（如产量、销售额）。
示例场景：某企业统计了各市场各品类的年度产量数据。

数据表示例

2. 向量化处理

将 Excel 文件上传至 AnythingLLM 后，系统会自动进行分块并向量化处理。这意味着数据被存储在本地向量数据库中，实现了私有化知识库的构建，确保数据不出域。

向量化结果

二、对话式数据分析实战

通过自然语言提问，AI 能够直接读取上下文中的数据进行计算和分析。

Q1：基础累计查询

问题：Fun Snack 23 年与 24 年的累计产量是多少？

AI 回答逻辑： DeepSeek R1 会分别检索 Context 0（2023 年）和 Context 1（2024 年）的数据，按品类和市场进行聚合求和。

输出结果示例：

2023 年 Fun Snack 累计产量：中国 20,189,501；马来 1,653,282；印度 7,887,648；总计 29,730,431。
2024 年 Fun Snack 累计产量：中国 23,701,270；马来 1,648,789；印度 8,338,982；总计 33,689,041。

验证对比：经与专业 BI 工具（如 Tableau）结果核对，数据完全一致。

BI 工具验证图

Q2：多维度分布分析

问题：24 年全工厂总产量按品类的分布情况如何？

AI 回答逻辑：计算各品类占总产量的百分比，并按市场拆解子数据。

输出结果示例：

Fun Snack：总计 33,689,041（占比 67.2%）

AnythingLLM+DeepSeek R1 本地知识库数据分析实战