基于 Langchain4j 的 Java AI 医疗助手开发实战
本文介绍如何使用 Langchain4j 在 Java 中构建 AI 医疗助手。涵盖 SpringBoot 项目搭建、Ollama 本地部署、阿里百炼接入、AIService 接口设计、聊天记忆(内存与持久化)、提示词工程、Function Calling 函数调用、RAG 检索增强生成、向量数据库集成及流式输出优化等核心功能。

本文介绍如何使用 Langchain4j 在 Java 中构建 AI 医疗助手。涵盖 SpringBoot 项目搭建、Ollama 本地部署、阿里百炼接入、AIService 接口设计、聊天记忆(内存与持久化)、提示词工程、Function Calling 函数调用、RAG 检索增强生成、向量数据库集成及流式输出优化等核心功能。

LangChain4j 的目标是简化将大语言模型(LLM - Large Language Model)集成到 Java 应用程序中的过程。

<properties>

</properties>
<dependencies>

</dependencies>
<dependencyManagement>

</dependencyManagement>


输出如下

Ollama 是一个本地部署大模型的工具。使用 Ollama 进行本地部署有以下多方面的原因:
ollama run <模型名>,就可以自动下载并运行所需的模型。并在 cmd 中执行 ollama run deepseek-r1:1.5b 命令:




输出






直接运行测试类中 testSpringBoot 即可
AIService 使用面向接口和动态代理的方式完成程序的编写,更灵活的实现高级功能。
AIService 可处理最常见的操作:为大语言模型格式化输入内容,解析大语言模型的输出结果。
它们还支持更高级的功能:聊天记忆 Chat memory,工具 Tools,检索增强生成 RAG。



输出:

AiServices 会组装 Assistant 接口以及其他组件,并使用反射机制创建一个实现 Assistant 接口的代理对象。这个代理对象会处理输入和输出的所有转换工作。在这个例子中,chat 方法的输入是一个字符串,但是大模型需要一个 UserMessage 对象。所以,代理对象将这个字符串转换为 UserMessage,并调用聊天语言模型。chat 方法的输出类型也是字符串,但是大模型返回的是 AiMessage 对象,代理对象会将其转换为字符串。简单理解就是:代理对象的作用是输入转换和输出转换。





输出:




输出





消息已经正确以 json 格式存储在了 mongoDB 中

系统提示词 @SystemMessage 设定角色,塑造 AI 助手的专业身份,明确助手的能力范围。

@SystemMessage 的内容将在后台转换为 SystemMessage 对象,并与大语言模型(LLM)。SystemMessage 的内容只会发送给大模型一次,与 UserMessage 一起发送。如果修改了 SystemMessage 的内容,新的 SystemMessage 会被发送给大模型,之前的聊天记忆会失效。

输出结果
JVM:

MongoDB:

@SystemMessage 注解还可以从资源中加载提示模板

my-prompt-template.txt

@UserMessage:获取用户输入
在 MemoryChatAssistant 的 chat 方法中添加注解


输出

@V 明确指定传递的参数名称

如果有两个或两个以上的参数,必须要用@V,在 SeparateChatAssistant 中定义方法


输出

也可以将 @SystemMessage 和 @V 结合使用 在 SeparateChatAssistant 中添加方法


输出







Function Calling 函数调用也叫 Tools。工具大语言模型本身并不擅长数学运算。如果应用场景中偶尔会涉及到数学计算,我们可以为它提供一个'数学工具'。当我们提出问题时,大语言模型会判断是否使用某个工具。

1.@Tool 注解有两个可选字段:name(工具名称):工具的名称。如果未提供该字段,方法名会作为工具的名称。value(工具描述):工具的描述信息。根据工具的不同,即使没有任何描述,大语言模型可能也能很好地理解它。
2.@P 注解 方法参数可以选择使用 @P 注解进行标注。@P 注解有两个字段:value:参数的描述信息,这是必填字段。required:表示该参数是否为必需项,默认值为 true。
3.@ToolMemoryId true,此为可选字段。如果你的 AIService 方法中有一个参数使用 @MemoryId 注解,那么你也可以使用 @Tool 方法中的一个参数。提供给 AIService 方法的值将自动传递给 @Tool 方法。如果你有多个用户,或每个用户有多个聊天记忆,并且希望在 @Tool 方法中对它们进行区分,那么这个功能会很有用。


输出:

实现清影小智的查询订单、预约订单、取消订单的功能。









输出:





运行结果:

LangChain4j 有一个'文档分割器'(DocumentSplitter)接口,并且提供了几种开箱即用的实现方式:
递归分割:DocumentSplitters.recursive (...) 默认情况下每个文本片段最多不能超过 300 个 token。
Embedding (Vector) Stores 常见的意思是'嵌入(向量)存储'。在机器学习和自然语言处理领域,Embedding 指的是将数据(如文本、图像等)转换为低维稠密向量表示的过程,这些向量能够保留数据的关键特征。而 Stores 表示存储,即用于存储这些嵌入向量的系统或工具。它们可以高效地存储和检索向量数据,支持向量相似性搜索,在文本检索、推荐系统、图像识别等任务中发挥着重要作用。
Langchain4j 支持的向量存储
Comparison table of all supported Embedding Stores | LangChain4j
添加依赖:

测试:



实例化一个'文档分割器'(DocumentSplitter),指定所需的'文本片段'(TextSegment)大小,并且可以选择指定 characters 或 token 的重叠部分。
2.'文档分割器'(DocumentSplitter)将给定的文档(Document)分割成更小的单元,这些单元的性质因分割器而异。例如,'按段落分割文档器'(DocumentByParagraphSplitter)将文档分割成段落(由两个或更多连续的换行符定义),而'按句子分割文档器'(DocumentBySentenceSplitter)使用 OpenNLP 库的句子检测器将文档分割成句子,依此类推。
3.然后,'文档分割器'(DocumentSplitter)将这些较小的单元(段落、句子、单词等)组合成'文本片段'(TextSegment),尝试在单个'文本片段'(TextSegment)中包含尽可能多的单元,同时不超过第一步中设置的限制。如果某些单元仍然太大,无法放入一个'文本片段'(TextSegment)中,它会调用一个子分割器。这是另一个'文档分割器'(DocumentSplitter),能够将不适合的单元分割成更细粒度的单元。会向每个文本片段添加一个唯一的元数据条目'index'。第一个'文本片段'(TextSegment)将包含 index=0,第二个是 index=1,依此类推。
模型上下文窗口可以通过模型参数列表查看:阿里云百炼
期望的文本片段最大大小
模型上下文窗口:如果你使用的大语言模型(LLM)有特定的上下文窗口限制,这个值不能超过模型能够处理的最大 token 数。例如,某些模型可能最大只能处理 2048 个 token,那么设置的文本片段大小就需要远小于这个值,为后续的处理(如添加指令、其他输入等)留出空间。通常,在这种情况下,你可以设置为 1000 - 1500 左右,具体根据实际情况调整。
数据特点:如果你的文档内容较为复杂,每个段落包含的信息较多,那么可以适当提高这个值,比如设置为 500 - 800 个 token,以便在一个文本片段中包含相对完整的信息块。相反,如果文档段落较短且信息相对独立,设置为 200 - 400 个 token 可能就足够了。
检索需求:如果希望在检索时能够更精确地匹配到相关信息,较小的文本片段可能更合适,这样能提高信息的粒度。例如设置为 200 - 300 个 token。但如果更注重获取完整的上下文信息,较大的文本片段(如 500 - 600 个 token)可能更有助于理解相关内容。
重叠部分大小
上下文连贯性:重叠部分的主要作用是提供上下文连贯性,避免因分割导致信息缺失。如果文档内容之间的逻辑联系紧密,建议设置较大的重叠部分,如 50 - 100 个 token,以确保相邻文本片段之间的过渡自然,模型在处理时能够更好地理解上下文。
数据冗余:然而,设置过大的重叠部分会增加数据的冗余度,可能导致处理时间增加和资源浪费。因此,需要在上下文连贯性和数据冗余之间进行平衡。一般来说,20 - 50 个 token 的重叠是比较常见的取值范围。
模型处理能力:如果使用的模型对输入的敏感性较高,较小的重叠部分(如 20 - 30 个 token)可能就足够了,因为过多的重叠可能会引入不必要的干扰信息。但如果模型对上下文依赖较大,适当增加重叠部分(如 40 - 60 个 token)可能会提高模型的性能。
例如,在处理一般性的文本资料,且使用的模型上下文窗口较大(如 4096 个 token)时,设置文本片段最大大小为 600 - 800 个 token,重叠部分为 30 - 50 个 token 可能是一个不错的选择。但最终的设置还需通过实验和实际效果评估来确定,以找到最适合具体应用场景的参数值。
在 xiaozhiAgentConfig 中添加 ContentRetriever




介绍 通用文本向量模型:
通用文本向量同步接口 API 详情_大模型服务平台百炼 (Model Studio)-阿里云帮助中心

使用通用文本向量 text-embedding-v3,维度 1024,维度越多,对事务的描述越精准,信息检索的精度越高。
langchain4j.community.dashscope.embedding-model.api-key=${ALI_API_KEY}
langchain4j.community.dashscope.embedding-model.model-name=text-embedding-v3

之前使用的是 InMemoryEmbeddingStore 作为向量存储,但是不建议在生产中使用基于内存的向量存储。因此这里我们使用 Pinecone 作为向量数据库。
官方网站:The vector database to build knowledgeable AI | Pinecone
访问官方网站、注册、登录、获取 apiKey 且配置在环境变量中。
默认有 2GB 的免费存储空间。
得分的含义
在向量检索场景中,当我们把查询文本转换为向量后,会在嵌入存储(EmbeddingStore)里查找与之最相似的向量(这些向量对应着文档片段等内容)。为了衡量查询向量和存储向量之间的相似程度,会使用某种相似度计算方法(例如余弦相似度等)来得出一个数值,这个数值就是得分。得分越高,表明查询向量和存储向量越相似,对应的文档片段与查询文本的相关性也就越高。
得分的作用
筛选结果:通过设置 minScore 阈值,能够过滤掉那些与查询文本相关性较低的结果。
在代码里,minScore(0.8) 意味着只有得分大于等于 0.8 的结果才会被返回,低于这个阈值的结果会被舍弃。这样可以确保返回的结果是与查询文本高度相关的,提升检索结果的质量。
控制召回率和准确率:调整 minScore 的值可以在召回率和准确率之间进行权衡。如果把阈值设置得较低,那么更多的结果会被返回,召回率会提高,但可能会包含一些相关性不太强的结果,导致准确率下降;反之,如果把阈值设置得较高,返回的结果数量会减少,准确率会提高,但可能会遗漏一些相关的结果,使得召回率降低。在实际应用中,需要根据具体的业务需求来合理设置 minScore 的值。
示例说明
假设我们有一个关于水果的文档集合,嵌入存储中存储了这些文档片段的向量。当我们使用'苹果的营养价值'作为查询文本时,向量检索会计算查询向量与存储向量的相似度得分。如果 minScore 设置为 0.8,那么只有那些与'苹果的营养价值'相关性非常高的文档片段才会被返回,而一些只简单提及苹果但没有详细讨论其营养价值的文档片段可能由于得分低于 0.8 而不会被返回。
引入相关依赖


测试相似度匹配

输出:



修改 contentRetriever 的配置为 contentRetrieverXiaozhiPincone

大模型的流式输出是指大模型在生成文本或其他类型的数据时,不是等到整个生成过程完成后再一次性返回所有内容,而是生成一部分就立即发送一部分给用户或下游系统,以逐步、逐块的方式返回结果。这样,用户就不需要等待整个文本生成完成再看到结果。通过这种方式可以改善用户体验,因为用户不需要等待太长时间,几乎可以立即开始阅读响应。


修改 XiaozhiAgent 中 chatModel 改为 streamingChatModel = "qwenStreamingChatModel"。chat 方法的返回值为 Flux。

将 XiaozhiController 中 chat 方法的返回值修改为 Flux,并添加 produces 属性

至此,清影小智开发完毕,可以通过运行主程序后,利用 swagger 在浏览器上输入 http://localhost:8080/doc.html 进行完整功能测试

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
查找任何按下的键的javascript键代码、代码、位置和修饰符。 在线工具,Keycode 信息在线工具,online
JavaScript 字符串转义/反转义;Java 风格 \uXXXX(Native2Ascii)编码与解码。 在线工具,Escape 与 Native 编解码在线工具,online
使用 Prettier 在浏览器内格式化 JavaScript 或 HTML 片段。 在线工具,JavaScript / HTML 格式化在线工具,online
Terser 压缩、变量名混淆,或 javascript-obfuscator 高强度混淆(体积会增大)。 在线工具,JavaScript 压缩与混淆在线工具,online
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online