基于大模型的自然语言数据库查询与数据分析 | 极客日志

PythonAI算法

基于大模型的自然语言数据库查询与数据分析

利用大语言模型结合 LlamaIndex 框架，通过自然语言生成 SQL 语句查询数据库的技术方案。内容涵盖环境搭建、基础查询实现、流式输出支持、模糊查询优化及提示词工程调整。文章分析了不同模型在 NL2SQL 任务中的表现差异，探讨了本地模型与云端模型的适用场景，并补充了安全注意事项与最佳实践，为开发者提供从原型验证到生产部署的参考路径。

奇形怪状发布于 2025/2/6更新于 2026/7/2137 浏览

使用大模型进行自然语言查询数据库

利用大语言模型（LLM）通过自然语言生成 SQL 语句，从结构化数据库中获取结果，是目前大模型与数据交互的主流形式之一。这种技术通常被称为 NL2SQL（Natural Language to SQL）。

核心流程

以查询朝阳区高中学校招生信息为例，当用户提问 陈经纶招多少人？ 时，系统处理的大致步骤如下：

上下文注入：将数据库的 DDL（建表语句）加入对话上下文，使大模型感知表结构。
SQL 生成：大模型将提示词转化为 SQL 查询语句，例如 select * from school_info where school_name like '%陈经纶%'。
结果解释：大模型根据 SQL 查询结果，生成自然语言的回答，如 北京市陈经纶中学招收的学生人数为 279 名。

以下示例基于 Jupyter Notebook 环境实现，主要涉及 SQLAlchemy、LlamaIndex 以及本地或云端模型调用。

准备数据

首先使用 SQLAlchemy 在 SQLite 内存数据库中创建表结构和记录。

from sqlalchemy import (
    create_engine,
    MetaData,
    Table,
    Column,
    String,
    Integer,
    select,
    insert,
)

# 建立连接和表
engine = create_engine("sqlite:///:memory:")
metadata_obj = MetaData()

# 创建学校信息表结构
table_name = "school_info"
school_info_table = Table(
    table_name,
    metadata_obj,
    Column("school_name", String(200), primary_key=True),
    Column("students_enrolled", Integer, nullable=False),
)
metadata_obj.create_all(engine)

# 插入学校信息记录
rows = [
    {"school_name": "北京市第八十中学", "students_enrolled": 260},
    {"school_name": "北京市陈经纶中学", "students_enrolled": 279},
    {"school_name": "北京市日坛中学", "students_enrolled": 403},
    {"school_name": "中国人民大学附属中学朝阳学校", "students_enrolled": 247},
    {: , : },
    {: , : },
]
 row  rows:
    stmt = insert(school_info_table).values(**row)
     engine.begin()  connection:
        cursor = connection.execute(stmt)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

from llama_index.core import Settings
from llama_index.llms.openai_like import OpenAILike
from llama_index.embeddings.ollama import OllamaEmbedding

# 设置 LLM (以本地 Ollama 为例)
Settings.llm = OpenAILike(
    model="qwen2",
    api_base="http://localhost:11434/v1",
    api_key="ollama",
    is_chat_model=True,
    temperature=0.1,
    request_timeout=60.0
)

# 设置 Embedding 模型
Settings.embed_model = OllamaEmbedding(
    model_name="quentinz/bge-large-zh-v1.5",
    base_url="http://localhost:11434",
    ollama_additional_kwargs={"mirostat": 0}
)

from llama_index.core.sql_database import SQLDatabase
from llama_index.core.query_engine import NLSQLTableQueryEngine

sql_database = SQLDatabase(engine)
query_engine = NLSQLTableQueryEngine(
    sql_database=sql_database, 
    tables=["school_info"],
)
query_str = "招生最多的是哪个学校?"
response = query_engine.query(query_str)
print(response)
# 输出示例：'招生最多的是北京工业大学附属中学，共有 418 名学生。'

from llama_index.core.retrievers import NLSQLRetriever
from llama_index.core.query_engine import RetrieverQueryEngine

nl_sql_retriever = NLSQLRetriever(
    sql_database, tables=["school_info"], return_raw=True
)

query_engine = RetrieverQueryEngine.from_args(
    nl_sql_retriever,
    streaming=True
)

response = query_engine.query("招生最多的前三个学校?")
response.print_response_stream()

from llama_index.core.prompts import PromptTemplate

# 配置云端模型 (示例)
nl_sql_retriever = NLSQLRetriever(
    sql_database, tables=["school_info"], 
    return_raw=False,
    llm=OpenAILike(
        model='qwen-turbo', 
        api_base="http://api.example.com/v1", 
        api_key="<YOUR_API_KEY>", # 请替换为实际密钥
        is_chat_model=True,
        temperature=0.1,
        request_timeout=60.0
    )
)

# 修改提示词模板
old_prompt_str = nl_sql_retriever.get_prompts()['text_to_sql_prompt'].template
new_prompt = PromptTemplate(
    f"{old_prompt_str}"
    "查询关键字使用模糊查询，并且查询结果应包含关键字所属的列"
)
nl_sql_retriever.update_prompts({"text_to_sql_prompt": new_prompt})

query_engine = RetrieverQueryEngine.from_args(
    nl_sql_retriever,
    streaming=True,
)

response = query_engine.query("陈经纶招多少?")
response.print_response_stream()
# 预期输出：陈经纶招收 279 名学生。

my_qa_prompt_template = (
    "回答中要求使用学校的完整名称 (school_name)"
    "不用再计算，给出的就是答案"
    "Context information is below.\n"
    "---------------------\n"
    "{context_str}\n"
    "---------------------\n"
    "Given the context information and not prior knowledge, "
    "answer the query.\n"
    "Query: {query_str}\n"
    "Answer: "
)
my_qa_prompt = PromptTemplate(
    my_qa_prompt_template, prompt_type="QUESTION_ANSWER"
)

query_engine = RetrieverQueryEngine.from_args(
    nl_sql_retriever,
    streaming=True,
    text_qa_template=my_qa_prompt,
)

response = query_engine.query("陈经纶招多少?")
response.print_response_stream()

基于大模型的自然语言数据库查询与数据分析

使用大模型进行自然语言查询数据库

核心流程

准备数据

更多推荐文章

相关免费在线工具

最基本的使用

支持流式输出回答

支持模糊查询

优化方案

定制回答格式

模型选择与性能评估

安全与最佳实践

总结

更多推荐文章

相关免费在线工具

基于大模型的自然语言数据库查询与数据分析

使用大模型进行自然语言查询数据库

核心流程

准备数据

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

最基本的使用

支持流式输出回答

支持模糊查询

优化方案

定制回答格式

模型选择与性能评估

安全与最佳实践

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具