用 Spring AI 走通 RAG：从文档切割到检索增强的实战拆解

用 Spring AI 走通 RAG：从文档切割到检索增强的实战拆解 | 极客日志

@Component
class MyJsonReader {
    private final Resource resource;

    MyJsonReader(@Value("classpath:products.json") Resource resource) {
        this.resource = resource;
    }

    List<Document> loadBasicJsonDocuments() {
        JsonReader jsonReader = new JsonReader(this.resource);
        return jsonReader.get();
    }

    List<Document> loadJsonWithSpecificFields() {
        JsonReader jsonReader = new JsonReader(this.resource, "description", "features");
        return jsonReader.get();
    }

    List<Document> loadJsonWithPointer() {
        JsonReader jsonReader = new JsonReader(this.resource);
        return jsonReader.get("/items");
    }
}

public class MsgEmailParser {
    public static Document convertToDocument(MsgEmailElement element) {
        Map<String, Object> metadata = new HashMap<>();
        if (StringUtils.hasText(element.getSubject())) {
            metadata.put("subject", element.getSubject());
        }
        // ... 其他元数据和内容提取
        String content = StringUtils.hasText(element.getText()) ? element.getText() : "";
        return new Document(content, metadata);
    }
}

@Component
class MyTokenTextSplitter {
    public List<Document> splitDocuments(List<Document> documents) {
        TokenTextSplitter splitter = new TokenTextSplitter();
        return splitter.apply(documents);
    }

    public List<Document> splitCustomized(List<Document> documents) {
        TokenTextSplitter splitter = new TokenTextSplitter(1000, 400, 10, 5000, true);
        return splitter.apply(documents);
    }
}

@Component
class MyDocumentEnricher {
    private final ChatModel chatModel;

    MyDocumentEnricher(ChatModel chatModel) {
        this.chatModel = chatModel;
    }

    List<Document> enrichDocumentsByKeyword(List<Document> documents) {
        KeywordMetadataEnricher enricher = new KeywordMetadataEnricher(this.chatModel, 5);
        return enricher.apply(documents);
    }

    List<Document> enrichDocumentsBySummary(List<Document> documents) {
        SummaryMetadataEnricher enricher = new SummaryMetadataEnricher(chatModel,
                List.of(SummaryType.PREVIOUS, SummaryType.CURRENT, SummaryType.NEXT));
        return enricher.apply(documents);
    }
}

DefaultContentFormatter formatter = DefaultContentFormatter.builder()
    .withMetadataTemplate("{key}: {value}")
    .withMetadataSeparator("\n")
    .withTextTemplate("{metadata_string}\n\n{content}")
    .withExcludedInferenceMetadataKeys("embedding", "vector_id")
    .withExcludedEmbedMetadataKeys("source_url", "timestamp")
    .build();
String formattedText = formatter.format(document, MetadataMode.INFERENCE);

@Component
class MyVectorStoreWriter {
    private final VectorStore vectorStore;

    MyVectorStoreWriter(VectorStore vectorStore) {
        this.vectorStore = vectorStore;
    }

    public void storeDocuments(List<Document> documents) {
        vectorStore.accept(documents);
    }
}

// 抽取：从 PDF 读取
PDFReader pdfReader = new PagePdfDocumentReader("knowledge_base.pdf");
List<Document> documents = pdfReader.read();

// 转换：分割 + 生成摘要
TokenTextSplitter splitter = new TokenTextSplitter(500, 50);
List<Document> splitDocuments = splitter.apply(documents);
SummaryMetadataEnricher enricher = new SummaryMetadataEnricher(chatModel,
        List.of(SummaryType.CURRENT));
List<Document> enrichedDocuments = enricher.apply(splitDocuments);

// 加载：写入向量库
vectorStore.write(enrichedDocuments);

// 或者链式调用
vectorStore.write(enricher.apply(splitter.apply(pdfReader.read())));

public interface VectorStore extends DocumentWriter {
    default String getName() {
        return this.getClass().getSimpleName();
    }
    void add(List<Document> documents);
}

用 Spring AI 走通 RAG：从文档切割到检索增强的实战拆解

RAG 工作流程

建立索引

检索增强

文档收集与切割：ETL 管道

Document 是什么

更多推荐文章

相关免费在线工具

ETL 三步走

抽取（Extract）

转换（Transform）

加载（Load）

把 ETL 串起来

向量转换与存储

更多推荐文章

相关免费在线工具

用 Spring AI 走通 RAG：从文档切割到检索增强的实战拆解

RAG 工作流程

建立索引

检索增强

文档收集与切割：ETL 管道

Document 是什么

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

ETL 三步走

抽取（Extract）

转换（Transform）

加载（Load）

把 ETL 串起来

向量转换与存储

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具