GraphRAG + Ollama 本地部署配置与源码修改实战 | 极客日志

PythonAI算法

GraphRAG + Ollama 本地部署配置与源码修改实战

综述由AI生成GraphRAG 微软开源项目默认依赖 OpenAI 闭源模型，限制了本地化使用。详细介绍如何通过修改 GraphRAG 配置文件及核心源码，接入 Ollama 提供的本地 Embedding 和 LLM 模型，实现完全本地的知识图谱构建与检索。内容包括环境准备、settings.yaml 配置详解、关键 Python 文件修改逻辑以及 Local/Global 查询测试验证，帮助开发者在离线环境下低成本运行 GraphRAG。

星河入梦发布于 2025/2/6更新于 2026/6/423 浏览

GraphRAG + Ollama 本地部署配置与源码修改实战

背景与目的

微软开源的 GraphRAG（Graph-based Retrieval-Augmented Generation）是一个强大的知识图谱构建工具，但其官方版本默认强依赖于 OpenAI 的闭源大模型 API。这导致在数据隐私敏感、网络受限或成本控制严格的场景下，直接部署面临较大困难。为了打破这一限制，本文通过修改 GraphRAG 的源码及配置文件，使其支持接入 Ollama 提供的本地 Embedding 模型和大语言模型（LLM），从而实现完全本地化的知识图谱构建与检索。

一、环境准备与安装

1. 基础环境要求

确保系统已安装 Python 3.10 至 3.12 版本。建议使用虚拟环境管理依赖。

2. 安装 GraphRAG

通过 pip 安装 GraphRAG 核心包：

pip install graphrag

3. 安装并配置 Ollama

访问 Ollama 官网下载并安装服务端。安装完成后，拉取所需的本地模型。推荐使用的模型组合如下：

Embedding 模型: quentinz/bge-large-zh-v1.5:latest (支持中文语义理解)
LLM 大模型: gemma2:9b (轻量级且性能较好的开源模型)

拉取命令示例：

ollama pull quentinz/bge-large-zh-v1.5
ollama pull gemma2:9b

二、初始化工作区

创建用于存储知识数据的文件夹，目前 GraphRAG 主要支持 .txt 和 .csv 格式文本。
将待处理的数据文件放入 /ragtest/input 目录下。
初始化工作区，运行以下命令生成配置文件：

graphrag init --root ragtest

执行后会在 ragtest 目录下生成 .env 和 settings.yaml 两个关键文件。

.env: 包含环境变量，如 API_KEY，需根据实际配置修改。
settings.yaml: 包含管道运行的详细设置，是本次修改的核心。

三、修改配置文件支持本地模型

打开 settings.yaml，重点修改 llm 和 embeddings 部分，将 API 类型指向本地 Ollama 服务。

encoding_model: cl100k_base
skip_workflows: []
llm:
  api_key: ollama
  type: openai_chat # 或 azure_openai_chat
  model: gemma2:9b # 替换为你安装的本地 LLM 模型名称
    
   
    
   

   
   

   
  
     
      
      
      
     

   
   
   []

   
   
   
   
   

   
   

   
   

   
   

   
   [,,,]

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# Copyright (c) 2024 Microsoft Corporation.
# Licensed under the MIT License
"""The EmbeddingsLLM class."""
from typing_extensions import Unpack
from graphrag.llm.base import BaseLLM
from graphrag.llm.types import (
    EmbeddingInput,
    EmbeddingOutput,
    LLMInput,
)
from .openai_configuration import OpenAIConfiguration
from .types import OpenAIClientTypes
import ollama

class OpenAIEmbeddingsLLM(BaseLLM[EmbeddingInput, EmbeddingOutput]):
    """A text-embedding generator LLM."""
    _client: OpenAIClientTypes
    _configuration: OpenAIConfiguration

    def __init__(self, client: OpenAIClientTypes, configuration: OpenAIConfiguration):
        self.client = client
        self.configuration = configuration

    async def _execute_llm(
        self, input: EmbeddingInput, **kwargs: Unpack[LLMInput]
    ) -> EmbeddingOutput | None:
        args = {
            "model": self.configuration.model,
            **(kwargs.get("model_parameters") or {}),
        }
        embedding_list = []
        for inp in input:
            # 使用 ollama 库直接调用本地模型
            embedding = ollama.embeddings(model="quentinz/bge-large-zh-v1.5:latest", prompt=inp)
            embedding_list.append(embedding["embedding"])
        return embedding_list
        # 原有 OpenAI 调用逻辑注释如下：
        # embedding = await self.client.embeddings.create(
        #     input=input,
        #     **args,
        # )
        # return [d.embedding for d in embedding.data]

# Copyright (c) 2024 Microsoft Corporation.
# Licensed under the MIT License
"""OpenAI Embedding model implementation."""
import asyncio
from collections.abc import Callable
from typing import Any

import numpy as np
import tiktoken
from tenacity import (
    AsyncRetrying,
    RetryError,
    Retrying,
    retry_if_exception_type,
    stop_after_attempt,
    wait_exponential_jitter,
)

from graphrag.query.llm.base import BaseTextEmbedding
from graphrag.query.llm.oai.base import OpenAILLMImpl
from graphrag.query.llm.oai.typing import (
    OPENAI_RETRY_ERROR_TYPES,
    OpenaiApiType,
)
from graphrag.query.llm.text_utils import chunk_text
from graphrag.query.progress import StatusReporter

from langchain_community.embeddings import OllamaEmbeddings

class OpenAIEmbedding(BaseTextEmbedding, OpenAILLMImpl):
    """Wrapper for OpenAI Embedding models."""
    def __init__(
        self,
        api_key: str | None = None,
        azure_ad_token_provider: Callable | None = None,
        model: str = "text-embedding-3-small",
        deployment_name: str | None = None,
        api_base: str | None = None,
        api_version: str | None = None,
        api_type: OpenaiApiType = OpenaiApiType.OpenAI,
        organization: str | None = None,
        encoding_name: str = "cl100k_base",
        max_tokens: int = 8191,
        max_retries: int = 10,
        request_timeout: float = 180.0,
        retry_error_types: tuple[type[BaseException]] = OPENAI_RETRY_ERROR_TYPES,
        reporter: StatusReporter | None = None,
    ):
        OpenAILLMImpl.__init__(
            self=self,
            api_key=api_key,
            azure_ad_token_provider=azure_ad_token_provider,
            deployment_name=deployment_name,
            api_base=api_base,
            api_version=api_version,
            api_type=api_type,
            organization=organization,
            max_retries=max_retries,
            request_timeout=request_timeout,
            reporter=reporter,
        )
        self.model = model
        self.encoding_name = encoding_name
        self.max_tokens = max_tokens
        self.token_encoder = tiktoken.get_encoding(self.encoding_name)
        self.retry_error_types = retry_error_types

    def embed(self, text: str, **kwargs: Any) -> list[float]:
        """
        Embed text using OpenAI Embedding's sync function.
        For text longer than max_tokens, chunk texts into max_tokens, embed each chunk, then combine using weighted average.
        """
        token_chunks = chunk_text(
            text=text, token_encoder=self.token_encoder, max_tokens=self.max_tokens
        )
        chunk_embeddings = []
        chunk_lens = []
        for chunk in token_chunks:
            try:
                embedding, chunk_len = self._embed_with_retry(chunk, **kwargs)
                chunk_embeddings.append(embedding)
                chunk_lens.append(chunk_len)
            except Exception as e:
                self._reporter.error(
                    message="Error embedding chunk",
                    details={self.__class__.__name__: str(e)},
                )
                continue
        chunk_embeddings = np.average(chunk_embeddings, axis=0, weights=chunk_lens)
        chunk_embeddings = chunk_embeddings / np.linalg.norm(chunk_embeddings)
        return chunk_embeddings.tolist()

    async def aembed(self, text: str, **kwargs: Any) -> list[float]:
        """
        Embed text using OpenAI Embedding's async function.
        """
        token_chunks = chunk_text(
            text=text, token_encoder=self.token_encoder, max_tokens=self.max_tokens
        )
        chunk_embeddings = []
        chunk_lens = []
        embedding_results = await asyncio.gather(*[
            self._aembed_with_retry(chunk, **kwargs) for chunk in token_chunks
        ])
        embedding_results = [result for result in embedding_results if result[0]]
        chunk_embeddings = [result[0] for result in embedding_results]
        chunk_lens = [result[1] for result in embedding_results]
        chunk_embeddings = np.average(chunk_embeddings, axis=0, weights=chunk_lens)
        chunk_embeddings = chunk_embeddings / np.linalg.norm(chunk_embeddings)
        return chunk_embeddings.tolist()

    def _embed_with_retry(
        self, text: str | tuple, **kwargs: Any
    ) -> tuple[list[float], int]:
        try:
            retryer = Retrying(
                stop=stop_after_attempt(self.max_retries),
                wait=wait_exponential_jitter(max=10),
                reraise=True,
                retry=retry_if_exception_type(self.retry_error_types),
            )
            for attempt in retryer:
                with attempt:
                    embedding = (
                        OllamaEmbeddings(
                            model=self.model,
                        ).embed_query(text)
                        or []
                    )
                    return (embedding, len(text))
        except RetryError as e:
            self._reporter.error(
                message="Error at embed_with_retry()",
                details={self.__class__.__name__: str(e)},
            )
            return ([], 0)
        else:
            return ([], 0)

    async def _aembed_with_retry(
        self, text: str | tuple, **kwargs: Any
    ) -> tuple[list[float], int]:
        try:
            retryer = AsyncRetrying(
                stop=stop_after_attempt(self.max_retries),
                wait=wait_exponential_jitter(max=10),
                reraise=True,
                retry=retry_if_exception_type(self.retry_error_types),
            )
            async for attempt in retryer:
                with attempt:
                    embedding = (
                        await OllamaEmbeddings(
                            model=self.model,
                        ).embed_query(text) or [] )
                    return (embedding, len(text))
        except RetryError as e:
            self._reporter.error(
                message="Error at embed_with_retry()",
                details={self.__class__.__name__: str(e)},
            )
            return ([], 0)
        else:
            return ([], 0)

graphrag index --root ragtest

GraphRAG + Ollama 本地部署配置与源码修改实战

GraphRAG + Ollama 本地部署配置与源码修改实战

背景与目的

一、环境准备与安装

1. 基础环境要求

2. 安装 GraphRAG

3. 安装并配置 Ollama

二、初始化工作区

三、修改配置文件支持本地模型

更多推荐文章

相关免费在线工具

四、修改源码适配本地调用

1. 修改 Embedding 生成器

2. 修改 Query 模块中的 Embedding 封装

五、构建索引与效果测试

1. 构建知识图谱索引

2. 查询测试

六、常见问题排查

结语

更多推荐文章

相关免费在线工具

GraphRAG + Ollama 本地部署配置与源码修改实战

GraphRAG + Ollama 本地部署配置与源码修改实战

背景与目的

一、环境准备与安装

1. 基础环境要求

2. 安装 GraphRAG

3. 安装并配置 Ollama

二、初始化工作区

三、修改配置文件支持本地模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

四、修改源码适配本地调用

1. 修改 Embedding 生成器

2. 修改 Query 模块中的 Embedding 封装

五、构建索引与效果测试

1. 构建知识图谱索引

2. 查询测试

六、常见问题排查

结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具