知识库问答机器人:基于 SpringAI+RAG 的完整实现
基于 Spring AI 框架与 RAG 技术构建知识库问答机器人的全流程。内容包括项目 Maven 依赖配置、自定义内存向量存储 TextBasedVectorStore 的实现原理、文档分块与 HanLP 中文分词向量化方案。通过集成智谱大模型与 Spring AI ChatClient,实现了文档解析、相似度检索及流式问答功能,并提供了完整的控制器与服务层代码示例。

基于 Spring AI 框架与 RAG 技术构建知识库问答机器人的全流程。内容包括项目 Maven 依赖配置、自定义内存向量存储 TextBasedVectorStore 的实现原理、文档分块与 HanLP 中文分词向量化方案。通过集成智谱大模型与 Spring AI ChatClient,实现了文档解析、相似度检索及流式问答功能,并提供了完整的控制器与服务层代码示例。

随着大语言模型的快速发展,RAG(Retrieval-Augmented Generation)技术已成为构建知识库问答系统的核心技术之一。本文将带领大家从零开始,使用 Spring AI 框架构建一个支持文档上传的知识库问答机器人,帮助大家深入理解 RAG 技术的核心原理和实践应用。
RAG(检索增强生成)是一种结合了信息检索和文本生成的技术。它的基本工作流程是:
从系统设计角度触发,RAG 的核心作用可以被描述为:在 LLM 调用生成响应之前,由系统动态构造一个'最小且相关的知识上下文'。
请注意两个关键词:
RAG 可以有效的弥补上下文窗口的先天不足:不再需要把所有知识塞进窗口,而是只在需要时'临时调取'相关部分,既避免了窗口溢出,又减少了注意力竞争。
接下来我们以 RAG 的经典应用场景——企业知识库为例,来看一下 RAG 在这个流程中所处的位置。

在这个结构中,RAG 主要就是在用户提问与向 LLM 发起请求这个中间段,用于检索关联的文档构建上下文。
我们以一张图来介绍 RAG 的工作原理,具体的 RAG 详细介绍,请参照文末引用。

D05-rag-qa-bot/
├── src/main/java/com/git/hui/springai/app/
│ ├── D05Application.java # 启动类
│ ├── mvc/
│ │ ├── QaApiController.java # API 控制器
│ │ └── QaController.java # 页面控制器
│ ├── qa/QaBoltService.java # 问答服务
│ └── vectorstore/
│ ├── DocumentChunker.java # 文档分块工具
│ ├── DocumentQuantizer.java # 文档量化器
│ └── TextBasedVectorStore.java # 文本向量存储
├── src/main/resources/
│ ├── application.yml # 配置文件
│ ├── prompts/qa-prompts.pt # 提示词模板
│ └── templates/chat.html # 前端页面
└── pom.xml # 依赖配置
首先,我们需要在 pom.xml 中配置必要的依赖:其中关于向量数据库、tika 的文档解析属于核心依赖项;hanlp 适用于无法直接使用 EmbeddingModel 的场景,在我们的示例中,会实现一个基础的文档向量化方案,其中会采用 HanLP 来做中文分词;使用智谱的免费大模型来体验我们的 RAG 知识库问答(当然也可以基于 OpenAI-Starter 来切换其他的大模型,使用层面并没有改变,只需要替换依赖、api 配置即可)。
<dependencies>
<!-- 向量数据库 -->
<dependency>
<groupId>org.springframework.ai</groupId>
<artifactId>spring-ai-advisors-vector-store</artifactId>
</dependency>
<!-- 文档提取,使用 apache-tika 来实现 -->
<dependency>
<groupId>org.springframework.ai</groupId>
<artifactId>spring-ai-tika-document-reader</artifactId>
</dependency>
<!-- pdf 文档提取,实际也可以用上面的 tika 来实现 -->
<dependency>
<groupId>org.springframework.ai</groupId>
<artifactId>spring-ai-pdf-document-reader</artifactId>
</dependency>
<dependency>
<groupId>org.springframework.ai</groupId>
<artifactId>spring-ai-rag</artifactId>
</dependency>
<dependency>
<>org.springframework.boot
spring-boot-starter-web
org.springframework.ai
spring-ai-starter-model-zhipuai
org.springframework.boot
spring-boot-starter-thymeleaf
com.hankcs
hanlp
portable-1.8.4
这里我们引入了 Spring AI 的核心依赖,以及用于文档处理的 Tika 和 PDF 读取器,还特别加入了 HanLP 中文分词库来优化中文处理效果。
在 application.yml 中配置 API 密钥和相关参数:
spring:
ai:
zhipuai:
api-key: ${zhipuai-api-key}
chat:
options:
model: GLM-4-Flash
temperature: 0.1
thymeleaf:
cache: false
servlet:
multipart:
max-file-size: 10MB
max-request-size: 50MB
logging:
level:
org.springframework.ai.chat.client.advisor.SimpleLoggerAdvisor: debug
org.springframework.ai.chat.client: DEBUG
server:
port: 8080
通常 RAG 会使用一些成熟的向量数据库(如 Pinecone、weaviate、qdrant、milvus 或者 es、redis 等),但是考虑到安装、环境配置等成本,我们接下来会实现一个基础的自定义的文本向量库 TextBasedVectorStore,基于内存实现,无需额外的外部依赖,单纯的用来体验 RAG 并没有太大问题。
SpringAI 原生提供了一个基于内存的向量数据库 SimpleVectorStore,在它的实现中,向量数据写入,依赖向量模型,因此如果有额度使用大模型厂家提供的 EmbeddingModel 时,直接用它进行测试即可;
当然如果你现在并没有渠道使用向量模型的,那也没关系,接下来我们将参照 SpringAI 的 SimpleVectorStore 实现的一个自定义的向量库 TextBasedVectorStore,提供一套不依赖向量模型的解决方案,特别适合快速原型开发,核心实现如下(当然你也完全可以忽略它,它不是我们的重点)。
在下面的实现中,重点体现了两个方法:doAdd(将文档保存到向量数据库中:文档分片 -> 向量化 -> 存储)、doSimilaritySearch(基于相似度的搜索)。需要注意一点,文档的向量化与搜索时传入文本的向量化,需要采用同一套向量化方案。
public class TextBasedVectorStore extends AbstractObservationVectorStore {
@Getter
protected Map<String, SimpleVectorStoreContent> store = new ConcurrentHashMap<>();
/**
* 已经存储到向量库的 document,用于幂等
*/
private Set<String> persistMd5 = new CopyOnWriteArraySet<>();
/**
* 添加文档到向量数据库
*
* @param documents
*/
@Override
public void doAdd(List<Document> documents) {
if (CollectionUtils.isEmpty(documents)) {
return;
}
// 创建一个新的可变列表副本
List<Document> mutableDocuments = new ArrayList<>();
for (Document document : documents) {
// 过滤掉重复的文档,避免二次写入,浪费空间
if (!persistMd5.contains((String) document.getMetadata().get("md5"))) {
mutableDocuments.add(document);
}
}
if (CollectionUtils.isEmpty(mutableDocuments)) {
return;
}
// 文档分片
List<Document> chunkers = DocumentChunker.DEFAULT_CHUNKER.chunkDocuments(mutableDocuments);
// 存储本地向量库
chunkers.forEach(document -> {
float[] embedding = DocumentQuantizer.quantizeDocument(document);
if (embedding.length == 0) {
return;
}
SimpleVectorStoreContent storeContent = (
document.getId(), document.getText(), document.getMetadata(), embedding
);
.store.put(document.getId(), storeContent);
});
mutableDocuments.forEach(document -> persistMd5.add((String) document.getMetadata().get()));
}
List<Document> {
Predicate<SimpleVectorStoreContent> documentFilterPredicate = .doFilterPredicate(request);
[] userQueryEmbedding = .getUserQueryEmbedding(request.getQuery());
.store.values().stream()
.filter(documentFilterPredicate)
.map((content) -> content.toDocument(DocumentQuantizer.calculateCosineSimilarity(userQueryEmbedding, content.getEmbedding())))
.filter((document) -> document.getScore() >= request.getSimilarityThreshold())
.sorted(Comparator.comparing(Document::getScore).reversed())
.limit(() request.getTopK())
.toList();
}
[] getUserQueryEmbedding(String query) {
DocumentQuantizer.quantizeQuery(query);
}
}
合理地将长文档分块是 RAG 系统的关键环节,合理的分块大小,可以有效的增加检索效率、提高准确率、减少上下文长度。
在真实的 RAG 应用中,这一块具体的方案挺多的,比如固定尺寸(下面的方案)、地柜拆分、语义拆分、结构化拆分(如结构化的 markdown 文档就很适合)、延迟拆分、自适应拆分、层级拆分、LLM 驱动拆分、智能体拆分等。
public class DocumentChunker {
private final int maxChunkSize;
private final int overlapSize;
public DocumentChunker() {
this(500, 50); // 默认值:最大块大小 500 个字符,重叠 50 个字符
}
public List<Document> chunkDocument(Document document) {
String content = document.getText();
if (content == null || content.trim().isEmpty()) {
return List.of(document);
}
List<String> chunks = splitText(content);
List<Document> chunkedDocuments = new ArrayList<>();
for (int i = 0; i < chunks.size(); i++) {
String chunk = chunks.get(i);
String chunkId = document.getId() + "_chunk_" + i;
Document chunkDoc = new Document(chunkId, chunk, new HashMap<>(document.getMetadata()));
chunkDoc.getMetadata().put("chunk_index", i);
chunkDoc.getMetadata().put("total_chunks", chunks.size());
chunkDoc.getMetadata().put(, document.getId());
chunkedDocuments.add(chunkDoc);
}
chunkedDocuments;
}
List<String> {
List<String> chunks = <>();
String[] sentences = text.split();
();
(String sentence : sentences) {
(sentence.trim().isEmpty()) {
;
}
(currentChunk.length() + sentence.length() <= maxChunkSize) {
(currentChunk.length() > ) {
currentChunk.append(sentence);
} {
currentChunk.append(sentence);
}
} {
(currentChunk.length() == ) {
List<String> subChunks = forceSplit(sentence, maxChunkSize);
( ; i < subChunks.size(); i++) {
subChunks.get(i);
(i < subChunks.size() - ) {
chunks.add(subChunk);
} {
currentChunk.append(subChunk);
}
}
} {
chunks.add(currentChunk.toString());
currentChunk = ();
(sentence.length() > overlapSize) {
sentence.substring(Math.max(, sentence.length() - overlapSize));
currentChunk.append(overlap);
currentChunk.append(sentence);
} {
currentChunk.append(sentence);
}
}
}
}
(currentChunk.length() > ) {
chunks.add(currentChunk.toString());
}
chunks;
}
}
使用 HanLP 进行中文分词,实现了一个简单的文档向量化工具类(同样的你也完全可以忽略它的具体实现,因为它的效果显然比使用 EmbedingModel 要差很多很多,但用于学习体验 RAG 也基本够用)。
public class DocumentQuantizer {
private static final Segment SEGMENT = HanLP.newSegment();
public static float[] quantizeText(String text) {
if (text == null || text.trim().isEmpty()) {
return new float[0];
}
String[] words = preprocessText(text);
Map<String, Integer> wordFreq = countWordFrequency(words);
// 生成固定长度的向量表示(这里使用前 128 个高频词)
return generateFixedLengthVector(wordFreq, 128);
}
/**
* 将文本转换为数值向量表示(简化版)
* 使用 TF-IDF 的基本思想,但简化为词频统计
*
* @param text 输入文本
* @return 数值向量
*/
private static String[] preprocessText(String text) {
List<Term> termList = SEGMENT.seg(text);
return termList.stream()
.filter(term -> !isStopWord(term.word)) // 过滤停用词
.filter(term -> !term.nature.toString().startsWith("w")) // 过滤标点符号
.map(term -> term.word.toLowerCase()) // 转换为小写
.toArray(String[]::new);
}
/**
* 生成固定长度的向量表示
*
* @param wordFreq 词频映射
* @param length 向量长度
* @return 固定长度的向量
*/
private static float[] generateFixedLengthVector(Map<String, Integer> wordFreq, int length) {
float[] vector = [length];
List<Map.Entry<String, Integer>> sortedEntries = wordFreq.entrySet().stream()
.sorted(Map.Entry.<String, Integer>comparingByValue().reversed())
.limit(length)
.collect(Collectors.toList());
( ; i < Math.min(sortedEntries.size(), length); i++) {
vector[i] = sortedEntries.get(i).getValue();
}
vector;
}
{
(vectorA == || vectorB == || vectorA.length == || vectorB.length == ) {
;
}
Math.min(vectorA.length, vectorB.length);
[] adjustedA = Arrays.copyOf(vectorA, minLength);
[] adjustedB = Arrays.copyOf(vectorB, minLength);
;
;
;
( ; i < minLength; i++) {
dotProduct += adjustedA[i] * adjustedB[i];
normA += Math.pow(adjustedA[i], );
normB += Math.pow(adjustedB[i], );
}
normA = Math.sqrt(normA);
normB = Math.sqrt(normB);
(normA == || normB == ) {
;
}
dotProduct / (normA * normB);
}
}
接下来就是注册使用这个向量库,在配置类 or 启动类中,添加下面这个声明即可。
@Bean
public VectorStore vectorStore() {
return TextBasedVectorStore.builder().build();
}
上面 2.3 适用于无法直接使用大模型厂家的向量模型的场景,如果可以直接使用,那么上面的全部可以直接忽略掉,直接使用下面的方式进行声明向量库即可。
@Bean
public VectorStore vectorStore(EmbeddingModel embeddingModel) {
return SimpleVectorStore.builder(embeddingModel).build();
}
接下来我们进入核心的基于 RAG 的 QA 问答机器人的实现。
我们先从时序的角度来看一下这个问答服务的核心交互流程。

在这个时序过程中,为了简化大家的理解,我们将文档的向量化存储与问答进行了拆分。
第一步:文档向量化 这一部分包含 RAG 应用数据准备阶段的完整过程:数据提取、文本分割、向量化。
第二步:问答 应用层响应用户提问、从向量数据库检索相似度高的文档信息、注入提示词、访问大模型,获取答案。
接下来我们看一下具体的实现(上面的步骤分割得很清楚,但是实际使用时,用户可以在问答中上传附件,这个附件也会作为我们知识库的一部分,因此具体的实现中,你会发现这两部耦合在一起了,请不要惊讶)。
step1: 初始化 ChatClient
在开始之前,我们首先参照 SpringAI 的官方教程,通过 Advisor 来初始化支持 RAG 的 ChatClient。
官方文档:https://docs.spring.io/spring-ai/reference/api/retrieval-augmented-generation.html
@Service
public class QaBoltService {
private final ChatClient chatClient;
private final ChatMemory chatMemory;
private final VectorStore vectorStore;
@Value("classpath:/prompts/qa-prompts.pt")
private Resource boltPrompts;
public QaBoltService(ChatClient.Builder builder, VectorStore vectorStore, ChatMemory chatMemory) {
this.vectorStore = vectorStore;
this.chatMemory = chatMemory;
this.chatClient = builder.defaultAdvisors(
new SimpleLoggerAdvisor(ModelOptionsUtils::toJsonStringPrettyPrinter, ModelOptionsUtils::toJsonStringPrettyPrinter, 0), // 用于支持多轮对话
MessageChatMemoryAdvisor.builder(chatMemory).build(), // 用于支持 RAG
RetrievalAugmentationAdvisor.builder()
.queryTransformers(RewriteQueryTransformer.builder().chatClientBuilder(builder.build().mutate()).build())
.queryAugmenter(ContextualQueryAugmenter.builder().allowEmptyContext(true).build())
.documentRetriever(VectorStoreDocumentRetriever.builder().similarityThreshold(0.50).vectorStore(vectorStore).build())
.build()
).build();
}
}
接下来就是响应问答的实现,这里分两步。
step2: 文档处理
处理用户上传的附件,即上面时序图中的第一步,解析文档、切分、向量化、保存到向量库;
下面的实现中主要体现的是基于 SpringAI 封装的 tika 与 pdf 文档解析 starter,来提取上传的文档,生成供向量数据库使用的 List;而具体的文档切分、向量化等则是在上面的 TextBasedVectorStore 实现。
注:为了一个文档,重复进行数据处理,我们在元数据中维护了文档的 md5,这样当添加到向量库中时,就可以基于这个 md5 来进行去重了。
private ProceedInfo processFiles(String chatId, Collection<MultipartFile> files) {
StringBuilder context = new StringBuilder("\n\n");
List<Media> mediaList = new ArrayList<>();
files.forEach(file -> {
try {
var data = new ByteArrayResource(file.getBytes());
var md5 = calculateHash(chatId, file.getBytes());
MimeType mime = MimeType.valueOf(file.getContentType());
if (mime.equalsTypeAndSubtype(MediaType.APPLICATION_PDF)) {
PagePdfDocumentReader pdfReader = new PagePdfDocumentReader(data,
PdfDocumentReaderConfig.builder()
.withPageTopMargin(0)
.withPageExtractedTextFormatter(ExtractedTextFormatter.builder().withNumberOfTopTextLinesToDelete(0).build())
.withPagesPerDocument(1)
.build());
List<Document> documents = pdfReader.read();
documents.forEach(document -> {
document.getMetadata().put("md5", md5);
if (document.getMetadata().containsKey("file_name") && document.getMetadata().get("file_name") == null) {
document.getMetadata().put("file_name", file.getName());
}
});
vectorStore.add(documents);
String.join(, documents.stream().map(Document::getText).toList());
context.append(String.format(ATTACHMENT_TEMPLATE, file.getName(), content));
} (.equalsIgnoreCase(mime.getType())) {
List<Document> documents = (data).read();
documents.forEach(document -> document.getMetadata().put(, md5));
vectorStore.add(documents);
String.join(, documents.stream().map(Document::getText).toList());
context.append(String.format(ATTACHMENT_TEMPLATE, file.getName(), content));
}
} (IOException e) {
(e);
}
});
(context.toString(), mediaList);
}
step3: 问答实现
然后就是具体的问答实现,这里主要是借助 QuestionAnswerAdvisor 来封装 RAG 相关的信息。
说明:在下面的实现中,使用了自定义的提示词模板,当然也可以直接使用 SpringAI 默认的方案。
public Flux<String> ask(String chatId, String question, Collection<MultipartFile> files) {
processFiles(chatId, files);
// 自定义的提示词模板,替换默认的检索参考资料的提示词模板
// 其中 <query> 对应的是用户的提问 question
// <question_answer_context> 对应的是增强检索的 document,即检索到的参考资料
PromptTemplate customPromptTemplate = PromptTemplate.builder()
.renderer(StTemplateRenderer.builder().startDelimiterToken('<').endDelimiterToken('>').build())
.template("""
<query>
Context information is below.
---------------------
<question_answer_context>
---------------------
Given the context information and no prior knowledge, answer the query. Follow these rules:
1. If the answer is not in the context, just say that you don't know.
2. Avoid statements like "Based on the context..." or "The provided information...".
""")
.build();
var qaAdvisor = QuestionAnswerAdvisor.builder(vectorStore)
.searchRequest(SearchRequest.builder().similarityThreshold(0.5d).topK(3).build())
.promptTemplate(customPromptTemplate)
.build();
var requestSpec = chatClient.prompt()
.system(boltPrompts)
.user(question)
.advisors(qaAdvisor)
.advisors(a -> a.param(ChatMemory.CONVERSATION_ID, chatId));
return requestSpec.stream().content().map(s -> s.replaceAll("\n", "<br/>"));
}
到这里,一个基于 RAG 的问答机器人的核心逻辑,已经全部完成,接下来我们进入体验阶段。
// QaApiController - API 控制器
@RestController
@RequestMapping("/api")
public class QaApiController {
@Autowired
private QaBoltService qaBolt;
@GetMapping(path = "/chat/{chatId}", produces = MediaType.TEXT_EVENT_STREAM_VALUE)
public Flux<String> qaGet(@PathVariable("chatId") String chatId, @RequestParam("question") String question) {
return qaBolt.ask(chatId, question, Collections.emptyList());
}
@PostMapping(path = "/chat/{chatId}", produces = MediaType.TEXT_EVENT_STREAM_VALUE)
public Flux<String> qaPost(@PathVariable("chatId") String chatId, @RequestParam("question") String question, @RequestParam(value = "files", required = false) Collection<MultipartFile> files) {
if (files == null) {
files = Collections.emptyList();
}
return qaBolt.ask(chatId, question, files);
}
}
@SpringBootApplication
public class D05Application {
@Bean
public VectorStore vectorStore() {
return TextBasedVectorStore.builder().build();
}
public static void main(String[] args) {
SpringApplication.run(D05Application.class, args);
System.out.println("启动成功,前端测试访问地址:http://localhost:8080/chat");
}
}
在 resources/prompts/qa-prompts.pt 中维护我们的 qa 机器人的系统提示词(DeepSeek 生成的)。
## 角色设定
你是一个智能问答助手,专门负责根据用户提供的文档内容进行准确的回答和信息提取。
## 核心任务
- 仔细阅读并理解用户上传的文档内容
- 基于文档中的信息回答用户的问题
- 提供准确、相关且基于文档的答案
- 当问题超出文档范围时,明确告知用户该信息未在文档中提及
## 工作流程
1. 首先分析用户上传的文档,提取关键信息
2. 理解用户提出的问题
3. 在文档中查找与问题相关的信息
4. 整合相关信息并形成结构化答案
5. 如无法从文档中找到相关信息,则说明情况
## 回答规范
- 严格基于文档内容作答,不得编造信息
- 引用文档中的具体信息时,请保持原文准确性
- 如果问题涉及多个知识点,在答案中清晰分点说明
- 对于不确定的内容,应诚实表达不确定性,而非猜测
- 保持回答简洁明了,同时确保信息完整
## 注意事项
- 不得脱离文档内容进行回答
- 遇到模糊或不明确的问题时,可以请求用户提供更详细的信息
- 如果文档中没有相关内容,必须明确告知用户
- 保持专业、礼貌的沟通态度
当然在启动时,可以在启动参数中指定大模型的 ApiKey,也可以直接修改 applicatino.yml,直接维护上 apiKey 也可以哦。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
查找任何按下的键的javascript键代码、代码、位置和修饰符。 在线工具,Keycode 信息在线工具,online
JavaScript 字符串转义/反转义;Java 风格 \uXXXX(Native2Ascii)编码与解码。 在线工具,Escape 与 Native 编解码在线工具,online
使用 Prettier 在浏览器内格式化 JavaScript 或 HTML 片段。 在线工具,JavaScript / HTML 格式化在线工具,online
Terser 压缩、变量名混淆,或 javascript-obfuscator 高强度混淆(体积会增大)。 在线工具,JavaScript 压缩与混淆在线工具,online
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online