翻译: LLM构建 GitHub 提交记录的聊天机器人一 使用 Timescale Vector、pgvector 和 LlamaIndex

翻译: LLM构建 GitHub 提交记录的聊天机器人一 使用 Timescale Vector、pgvector 和 LlamaIndex

1. 检索增强生成 (RAG Retrieval Augmented Generation)

检索增强生成 (RAG Retrieval Augmented Generation) 对于增强应用程序开发中的大型语言模型 (LLM) 至关重要。它用外部数据源补充 LLM,通过减少错误或幻觉来帮助获得更相关的响应。RAG 通过语义搜索确定哪些信息与用户的查询相关,语义搜索按含义搜索数据(而不仅仅是查找搜索词的文字匹配项)。RAG 对于需要访问特定领域或专有数据的 LLM 应用程序特别有效。

www.zeeklog.com - 翻译: LLM构建 GitHub 提交记录的聊天机器人一 使用 Timescale Vector、pgvector 和 LlamaIndex


然而,仅靠 RAG 并不总是足以构建强大的、上下文感知的 LLM 应用程序。使用时间感知检索time-aware retrieval来增强 RAG,在特定时间和日期范围内查找语义相关的向量,可以显着提高其有效性。

2. 不使用和使用时间感知检索time-aware retrieval得区别

在处理日期繁重的知识库时,时间感知 RAG 可以帮助您构建 LLM 应用程序,这些应用程序擅长为用户查询生成相关答案。

在此示例中,了解时间感知检索如何提高 LLM 响应的质量:

Alice 是一名开发人员,她想要了解对 GitHub 存储库(在本例中为 )的特定更改。她没有手动检查代码或提交历史记录,而是找到了一个“与我的 GitHub 存储库聊天”应用程序,并使用它来加快她的研究速度。Alice 想要了解名为“连续聚合”的功能的最新更改,并于 2023 年 11 月 29 日提出以下问题:

What’s new with the continuous aggregates feature in the past 6 months?

2.1 没有时间感知 RAG 👎 的 LLM 响应

名为“连续聚合continuous aggregates”的功能发生了一些变化。最近的更改是由 Sven Klemm 于 2020 年 1 月 24 日进行的。此更改添加了一种称为实时聚合的新模式,该模式将具体化数据与上次刷新后接收的新数据相结合。此新模式现在是新创建的连续聚合的默认行为。要将现有连续聚合升级到新行为,需要运行特定命令。

2.2 具有时间感知 RAG ✅ 的 LLM 响应

在过去的 6 个月中,对名为连续聚合continuous aggregates的功能进行了两项更改。第一次更改是在 2023 年 8 月 7 日由 Fabrízio de Royes Mello 进行的。此更改放宽了刷新连续聚合时的强表锁定,从而允许在多个会话中以更少的锁执行刷新过程。第二个更改是在 2023 年 8 月 29 日由 Jan Nidzwetzki 进行的。此更改通过向 post.continuous_aggs.v3.sql 中的两个查询添加 ORDER BY 规范,使上/降级测试具有确定性。

使用时间感知 RAG 的响应更有用——它在 Alice 指定的时间段内,并且与主题相关。两个响应之间的区别在于检索步骤。

3 教程:构建有关 GitHub 提交历史记录的聊天机器人

现在轮到你了!在本文的其余部分,我们将介绍构建  的过程:一个时间感知的 RAG 聊天机器人,使您能够回到过去并与任何 GitHub 存储库的提交历史记录聊天。

每个 Git 提交都有一个关联的时间戳、自然语言消息和其他元数据,这意味着需要语义搜索和基于时间的搜索来回答有关提交历史记录的问题。

👩‍💻👩‍💻想直接跳进去吗?查看和。

www.zeeklog.com - 翻译: LLM构建 GitHub 提交记录的聊天机器人一 使用 Timescale Vector、pgvector 和 LlamaIndex


TSV Time Machine 应用的屏幕截图,显示用户与 PostgreSQL 项目 GitHub 提交历史记录聊天。

4. TSV Time Machine 应用程序概述

为了给增强 TSV Time Machine ,我们使用以下方法:

  • 是一个强大的 LLM 数据框架,用于 RAG 应用程序。LlamaIndex 引入、处理和检索数据。我们将使用 来推断要在矢量数据库上运行的正确查询,包括查询字符串和元数据筛选器。
  • 是我们的矢量数据库。Timescale Vector 针对相似性和基于时间的搜索进行了优化,使其成为支持时间感知 RAG 的理想选择。它通过来隔离特定时间范围的数据来实现这一点。我们将通过 LlamaIndex 的  访问它。

TSV Time Machine 示例应用有三个页面:

  • Home主页:提供应用程序使用说明的应用程序主页。
  • Load Data加载数据:页面以加载所选存储库的 Git 提交历史记录。
  • Time Machine Demo:与加载的任何 GitHub 存储库聊天的界面。

由于该应用程序是 ~600 行代码,我们不会逐行解压(尽管您可以要求 ChatGPT 向您解释任何棘手的部分!让我们看一下其中涉及的关键代码片段:

  1. 从要与之聊天的 GitHub 存储库加载数据
  2. 通过时间感知检索time-aware retrieval augmented generation增强聊天效果

参考

https://blog.streamlit.io/using-time-based-rag-llm-apps-with-timescale-vector/

Read more

【OpenClaw从入门到精通】第10篇:OpenClaw生产环境部署全攻略:性能优化+安全加固+监控运维(2026实测版)

【OpenClaw从入门到精通】第10篇:OpenClaw生产环境部署全攻略:性能优化+安全加固+监控运维(2026实测版)

摘要:本文聚焦OpenClaw从测试环境走向生产环境的核心痛点,围绕“性能优化、安全加固、监控运维”三大维度展开实操讲解。先明确生产环境硬件/系统选型标准,再通过硬件层资源管控、模型调度策略、缓存优化等手段提升响应速度(实测响应效率提升50%+);接着从网络、权限、数据三层构建安全防护体系,集成火山引擎安全方案拦截高危操作;最后落地TenacitOS可视化监控与Prometheus告警体系,配套完整故障排查清单和虚拟实战案例。全文所有配置、代码均经实测验证,兼顾新手入门实操性和进阶读者的生产级部署需求,帮助开发者真正实现OpenClaw从“能用”到“放心用”的跨越。 优质专栏欢迎订阅! 【DeepSeek深度应用】【Python高阶开发:AI自动化与数据工程实战】【YOLOv11工业级实战】 【机器视觉:C# + HALCON】【大模型微调实战:平民级微调技术全解】 【人工智能之深度学习】【AI 赋能:Python 人工智能应用实战】【数字孪生与仿真技术实战指南】 【AI工程化落地与YOLOv8/v9实战】【C#工业上位机高级应用:高并发通信+性能优化】 【Java生产级避坑指南:

By Ne0inhk
ARM Linux 驱动开发篇--- Linux 并发与竞争实验(互斥体实现 LED 设备互斥访问)--- Ubuntu20.04互斥体实验

ARM Linux 驱动开发篇--- Linux 并发与竞争实验(互斥体实现 LED 设备互斥访问)--- Ubuntu20.04互斥体实验

🎬 渡水无言:个人主页渡水无言 ❄专栏传送门: 《linux专栏》《嵌入式linux驱动开发》《linux系统移植专栏》 ❄专栏传送门: 《freertos专栏》《STM32 HAL库专栏》 ⭐️流水不争先,争的是滔滔不绝  📚博主简介:第二十届中国研究生电子设计竞赛全国二等奖 |国家奖学金 | 省级三好学生 | 省级优秀毕业生获得者 | ZEEKLOG新星杯TOP18 | 半导纵横专栏博主 | 211在读研究生 在这里主要分享自己学习的linux嵌入式领域知识;有分享错误或者不足的地方欢迎大佬指导,也欢迎各位大佬互相三连 目录 前言  一、实验基础说明 1.1、互斥体简介 1.2 本次实验设计思路 二、硬件原理分析(看过之前博客的可以忽略) 三、实验程序编写 3.1 互斥体 LED 驱动代码(mutex.c) 3.2.1、设备结构体定义(28-39

By Ne0inhk
Flutter for OpenHarmony:swagger_dart_code_generator 接口代码自动化生成的救星(OpenAPI/Swagger) 深度解析与鸿蒙适配指南

Flutter for OpenHarmony:swagger_dart_code_generator 接口代码自动化生成的救星(OpenAPI/Swagger) 深度解析与鸿蒙适配指南

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.ZEEKLOG.net 前言 后端工程师扔给你一个 Swagger (OpenAPI) 文档地址,你会怎么做? 1. 对着文档,手写 Dart Model 类(容易写错字段类型)。 2. 手写 Retrofit/Dio 的 API 接口定义(容易拼错 URL)。 3. 当后端修改了字段名,你对着报错修半天。 这是重复劳动的地狱。 swagger_dart_code_generator 可以将 Swagger (JSON/YAML) 文件直接转换为高质量的 Dart 代码,包括: * Model 类:支持 json_serializable,带 fromJson/

By Ne0inhk
Linux 开发别再卡壳!makefile/git/gdb 全流程实操 + 作业解析,新手看完直接用----《Hello Linux!》(5)

Linux 开发别再卡壳!makefile/git/gdb 全流程实操 + 作业解析,新手看完直接用----《Hello Linux!》(5)

文章目录 * 前言 * make/makefile * 文件的三个时间 * Linux第一个小程序-进度条 * 回车和换行 * 缓冲区 * 程序的代码展示 * git指令 * 关于gitee * Linux调试器-gdb使用 * 作业部分 前言 做 Linux 开发时,你是不是也遇到过这些 “卡脖子” 时刻?写 makefile 时,明明语法没错却报错,最后发现是依赖方法行没加 Tab;想提交代码到 gitee,记不清 git add/commit/push 的 “三板斧”,还得反复搜教程;用 gdb 调试程序,输了命令没反应,才想起编译时没加-g生成 debug 版本;甚至连写个进度条,都搞不懂\r和\n的区别,导致进度条乱跳…… 其实这些问题,

By Ne0inhk