基于大模型的自然语言数据库查询实现指南 | 极客日志

PythonAI

基于大模型的自然语言数据库查询实现指南

综述由AI生成使用大模型通过自然语言查询数据库的技术实现方案。内容涵盖环境搭建、SQLAlchemy 数据建模、LlamaIndex 配置、基础查询与流式输出实现、模糊查询的提示词优化以及安全与性能考量。通过具体代码示例展示了如何集成本地 Ollama 模型或云端 API，解决了上下文限制、SQL 生成准确性等问题，并为实际生产环境提供了完整的参考架构和安全建议。

佛系玩家发布于 2025/2/6更新于 2026/6/1428 浏览

基于大模型的自然语言数据库查询实现指南

使用大模型（LLM）通过自然语言生成 SQL 语句，从结构化数据库中获取结果，是目前大模型与数据交互的主流形式之一。这种技术通常被称为 Text-to-SQL 或 NL2SQL（Natural Language to SQL）。它极大地降低了非技术人员访问数据的门槛，使得业务人员可以直接通过对话方式查询数据。

本文将详细介绍如何使用 Python 生态中的 LlamaIndex、SQLAlchemy 以及本地或云端大模型，构建一个支持自然语言查询数据库的系统。我们将涵盖环境搭建、数据准备、基础查询、流式输出、模糊查询优化以及安全注意事项等完整流程。

一、核心原理概述

Text-to-SQL 的基本流程如下：

上下文注入：将数据库的 DDL（建表语句）作为上下文信息提供给大模型，使其理解表结构、字段含义及关系。
意图识别与 SQL 生成：大模型接收用户的自然语言问题，结合表结构，生成对应的 SQL 查询语句。
执行与反馈：系统执行生成的 SQL，获取结果集，并将结果再次输入大模型，由大模型将数据转换为自然语言回答。

以下是一个简单的示例场景：存储朝阳区高中学校招生信息的数据库，用户提问 陈经纶招多少人？，系统大致处理步骤为：

数据库 DDL 加入对话上下文，主要是建表语句，让大模型感知表结构。
大模型将提示词转化为 SQL 查询语句，例如 select * from school_info where school_name like '%陈经纶%'。
大模型根据 SQL 查询结果，生成自然语言的回答，例如 北京市陈经纶中学招收的学生人数为 279 名。

二、环境准备与依赖安装

在开始之前，需要准备好开发环境。推荐使用 Jupyter Notebook 或 JupyterLab 进行交互式开发。

1. 基础依赖

我们需要安装以下核心库：

pip install llama-index sqlalchemy pandas ollama openai

llama-index: 用于连接 LLM 和外部数据源的核心框架。
sqlalchemy: ORM 工具，用于定义数据库结构和操作记录。
pandas: 用于数据处理和展示。
ollama: 用于运行本地大模型。
openai: 兼容 OpenAI API 格式的客户端，用于调用云端或本地兼容接口。

2. 模型配置

本文演示同时支持本地模型（通过 Ollama）和云端模型（通过 One-API 或类似网关）。

本地模型：需确保 Ollama 服务已启动，并拉取相应模型（如 qwen2, llama3 等）。
云端模型：需配置 API Key 和 Base URL。

三、数据准备与建模

我们使用 SQLAlchemy 在内存 SQLite 数据库中创建示例表和相关记录。SQLite 轻量且无需额外服务器，适合演示。

1. 建立连接和表结构

from sqlalchemy import (
    create_engine,
    MetaData,
    Table,
    Column,
    String,
    Integer,
    insert,
)

# 创建内存数据库引擎
engine = create_engine("sqlite:///:memory:")
metadata_obj = MetaData()

# 创建学校信息表结构
table_name = 
school_info_table = Table(
    table_name,
    metadata_obj,
    Column(, String(), primary_key=),
    Column(, Integer, nullable=),
)
metadata_obj.create_all(engine)

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online

rows = [
    {"school_name": "北京市第八十中学", "students_enrolled": 260},
    {"school_name": "北京市陈经纶中学", "students_enrolled": 279},
    {"school_name": "北京市日坛中学", "students_enrolled": 403},
    {"school_name": "中国人民大学附属中学朝阳学校", "students_enrolled": 247},
    {"school_name": "北京工业大学附属中学", "students_enrolled": 418},
    {"school_name": "北京中学", "students_enrolled": 121},
]
for row in rows:
    stmt = insert(school_info_table).values(**row)
    with engine.begin() as connection:
        cursor = connection.execute(stmt)

import pandas as pd
with engine.connect() as conn:
    df = pd.read_sql("SELECT * FROM school_info", conn)
    print(df)

from llama_index.llms.openai_like import OpenAILike
from llama_index.embeddings.ollama import OllamaEmbedding
from llama_index.core import Settings

Settings.llm = OpenAILike(
    model="qwen2",
    api_base="http://localhost:11434/v1", 
    api_key="ollama",
    is_chat_model=True,
    temperature=0.1,
    request_timeout=60.0
)

Settings.embed_model = OllamaEmbedding(
    model_name="quentinz/bge-large-zh-v1.5",
    base_url="http://localhost:11434",
    ollama_additional_kwargs={"mirostat": 0}
)

from llama_index.core.sql_database.interface import SQLDatabase
from llama_index.core.query_engine import NLSQLTableQueryEngine

# 封装数据库对象
sql_database = SQLDatabase(engine)

query_engine = NLSQLTableQueryEngine(
    sql_database=sql_database, 
    tables=["school_info"],
)

query_str = "招生最多的是哪个学校？"
response = query_engine.query(query_str)
print(response.response)
# 预期输出：'招生最多的是北京工业大学附属中学，共有 418 名学生。'

from llama_index.core.retrievers import NLSQLRetriever
from llama_index.core.query_engine import RetrieverQueryEngine

nl_sql_retriever = NLSQLRetriever(
    sql_database, 
    tables=["school_info"], 
    return_raw=True
)

query_engine = RetrieverQueryEngine.from_args(
    nl_sql_retriever,
    streaming=True
)

response = query_engine.query("招生最多的前三个学校？")
response.print_response_stream()

from llama_index.core.prompts import PromptTemplate

nl_sql_retriever = NLSQLRetriever(
    sql_database, 
    tables=["school_info"], 
    return_raw=False,
    llm=OpenAILike(
        model='qwen-turbo', 
        api_base="http://your-api-gateway:3000/v1", 
        api_key="sk-your-key",
        is_chat_model=True,
        temperature=0.1,
        request_timeout=60.0
    )
)

# 获取原有模板
old_prompt_str = nl_sql_retriever.get_prompts()['text_to_sql_prompt'].template

# 添加模糊查询指令
new_prompt = PromptTemplate(
    f"{old_prompt_str}\n查询关键字使用模糊查询，并且查询结果应包含关键字所属的列"
)

nl_sql_retriever.update_prompts({"text_to_sql_prompt": new_prompt})

query_engine = RetrieverQueryEngine.from_args(
    nl_sql_retriever,
    streaming=True,
)

response = query_engine.query("陈经纶招多少？")
response.print_response_stream()
# 预期输出：陈经纶招收 279 名学生。

my_qa_prompt_template = (
    "回答中要求使用学校的完整名称 (school_name)\n"
    "不用再计算，给出的就是答案\n"
    "Context information is below.\n"
    "---------------------\n"
    "{context_str}\n"
    "---------------------\n"
    "Given the context information and not prior knowledge, "
    "answer the query.\n"
    "Query: {query_str}\n"
    "Answer: "
)
my_qa_prompt = PromptTemplate(
    my_qa_prompt_template, prompt_type="QUESTION_ANSWER"
)

query_engine = RetrieverQueryEngine.from_args(
    nl_sql_retriever,
    streaming=True,
    text_qa_template=my_qa_prompt,
)

response = query_engine.query("陈经纶招多少？")
response.print_response_stream()

import os
from sqlalchemy import create_engine, MetaData, Table, Column, String, Integer, insert
from llama_index.core import Settings
from llama_index.llms.openai_like import OpenAILike
from llama_index.embeddings.ollama import OllamaEmbedding
from llama_index.core.sql_database.interface import SQLDatabase
from llama_index.core.retrievers import NLSQLRetriever
from llama_index.core.query_engine import RetrieverQueryEngine
from llama_index.core.prompts import PromptTemplate

def setup_environment():
    # 配置 LLM
    Settings.llm = OpenAILike(
        model="qwen2",
        api_base="http://localhost:11434/v1",
        api_key="ollama",
        is_chat_model=True,
        temperature=0.1
    )
    Settings.embed_model = OllamaEmbedding(
        model_name="bge-large-zh-v1.5",
        base_url="http://localhost:11434"
    )

def init_db():
    engine = create_engine("sqlite:///:memory:")
    metadata_obj = MetaData()
    table_name = "school_info"
    school_info_table = Table(
        table_name, metadata_obj,
        Column("school_name", String(200), primary_key=True),
        Column("students_enrolled", Integer, nullable=False),
    )
    metadata_obj.create_all(engine)
    rows = [
        {"school_name": "北京市第八十中学", "students_enrolled": 260},
        {"school_name": "北京市陈经纶中学", "students_enrolled": 279},
    ]
    for row in rows:
        stmt = insert(school_info_table).values(**row)
        with engine.begin() as connection:
            connection.execute(stmt)
    return SQLDatabase(engine)

def main():
    setup_environment()
    db = init_db()
    retriever = NLSQLRetriever(db, tables=["school_info"])
    engine = RetrieverQueryEngine.from_args(retriever, streaming=True)
    
    query = "招生最多的是哪个学校？"
    response = engine.query(query)
    print(f"Query: {query}")
    response.print_response_stream()

if __name__ == "__main__":
    main()

基于大模型的自然语言数据库查询实现指南

基于大模型的自然语言数据库查询实现指南

一、核心原理概述

二、环境准备与依赖安装

1. 基础依赖

2. 模型配置

三、数据准备与建模

1. 建立连接和表结构

更多推荐文章

相关免费在线工具

2. 插入测试数据

3. 数据验证

四、LlamaIndex 基础配置

1. 配置 LLM

五、基本查询实现

1. 初始化查询引擎

2. 局限性分析

六、支持流式输出回答

1. 配置 NLSQLRetriever

2. 效果说明

七、高级功能：模糊查询与提示词工程

1. 默认行为问题

2. 自定义 Prompt 模板

3. 定制化回答格式

八、性能优化与安全考量

1. 上下文窗口管理

2. 模型选择策略

3. 安全性防护

九、完整代码示例整合

十、总结与展望

更多推荐文章

相关免费在线工具

基于大模型的自然语言数据库查询实现指南

基于大模型的自然语言数据库查询实现指南

一、核心原理概述

二、环境准备与依赖安装

1. 基础依赖

2. 模型配置

三、数据准备与建模

1. 建立连接和表结构

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 插入测试数据

3. 数据验证

四、LlamaIndex 基础配置

1. 配置 LLM

五、基本查询实现

1. 初始化查询引擎

2. 局限性分析

六、支持流式输出回答

1. 配置 NLSQLRetriever

2. 效果说明

七、高级功能：模糊查询与提示词工程

1. 默认行为问题

2. 自定义 Prompt 模板

3. 定制化回答格式

八、性能优化与安全考量

1. 上下文窗口管理

2. 模型选择策略

3. 安全性防护

九、完整代码示例整合

十、总结与展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具