GitHub Copilot 调用第三方模型API

优质文章学习记录

08 Apr 2026 — 3 min read

一、说明

OAI Compatible Provider for Copilot 的作用是：把 Copilot/Copilot Chat 发出的“类似 OpenAI API 的请求”，转发到指定的 OpenAI-Compatible 服务端（例如 ModelScope 推理网关、自建的兼容网关等）。

⚠️ Warning

登录 GitHub Copilot 的账号一定要是非组织方式开通 pro 会员的，不然无法管理模型。

推荐直接用免费的free账号登录即可。

二、插件安装

在 VS Code 扩展市场安装并启用：

GitHub Copilot
GitHub Copilot Chat
OAI Compatible Provider for Copilot（johnny-zhao.oai-compatible-copilot）

安装后：Developer: Reload Window 重载窗口一次。

确保已在 VS Code 中登录 GitHub，并且 Copilot 正常可用（不然你分不清是 Copilot 本身问题还是 provider 转发问题）。

三、配置示例

建议将配置放置在项目内的： .vscode/settings.json

1、单模型示例

{ "oaicopilot.baseUrl": "https://api.soraharu.com/v1", "oaicopilot.delay": 0, "oaicopilot.readFileLines": 0, "oaicopilot.retry": { "enabled": true, "max_attempts": 3, "interval_ms": 1000, "status_codes": [] }, "oaicopilot.commitLanguage": "English", "oaicopilot.models": [ { "id": "__provider__soraharu", "owned_by": "soraharu", "baseUrl": "https://api.api.soraharu.com/v1", "apiMode": "openai" }, { "id": "google/gemini-3-pro-preview", "owned_by": "soraharu", "baseUrl": "https://api.soraharu.com/v1", "context_length": 128000, "max_tokens": 4096, "vision": true, "apiMode": "openai", "temperature": 0 } ] }

2、多模型示例

{ "oaicopilot.baseUrl": "https://api.soraharu.com/v1", "oaicopilot.delay": 0, "oaicopilot.readFileLines": 0, "oaicopilot.retry": { "enabled": true, "max_attempts": 3, "interval_ms": 1000, "status_codes": [] }, "oaicopilot.commitLanguage": "English", "oaicopilot.models": [ { "id": "__provider__soraharu", "owned_by": "soraharu", "baseUrl": "https://api.soraharu.com/v1", "apiMode": "openai" }, { "id": "google/gemini-3-pro-preview", "owned_by": "soraharu", "baseUrl": "https://api.soraharu.com/v1", "context_length": 128000, "max_tokens": 4096, "vision": true, "apiMode": "openai", "temperature": 0 }, { "id": "anthropic/claude-opus-4-5-thinking", "owned_by": "soraharu", "baseUrl": "https://api.soraharu.com/v1", "context_length": 128000, "max_tokens": 4096, "vision": true, "apiMode": "openai", "temperature": 0 }, { "id": "anthropic/claude-sonnet-4-thinking", "owned_by": "soraharu", "baseUrl": "https://api.soraharu.com/v1", "context_length": 128000, "max_tokens": 8192, "vision": true, "apiMode": "openai", "temperature": 0 } ] }

3、配置讲解

配置主要分为两块：

顶层通用项（全局 API 地址、重试等）
oaicopilot.models数组（定义可选的大模型）

顶层通用项

字段	作用
oaicopilot.baseUrl	通用 API 基地址，推荐全局只用一处。
oaicopilot.delay	控制 Copilot 插件调用接口时的延迟，一般设 0（默认即可）
oaicopilot.readFileLines	配合 Copilot 文件分段补全时用，设 0 即可
oaicopilot.retry	Copilot Chat请求失败时的自动重试策略。
oaicopilot.commitLanguage	Copilot建议生成commit的语言，通常填"English"即可

模型池 oaicopilot.models

字段	作用
id	必须和/v1/models能获得的模型id一致（如"google/gemini-3-pro-preview"）
owned_by	一般填"provider名"即可，描述归属或来源
baseUrl	建议只在顶层写一处，模型对象里不强制（写也可以，冲突时顶层优先）
apiMode	绝大多数 Soraharu/OneAPI都填"openai"，如果是anthropic/olllama/自定义才需变
context_length	最大上下文长度（token数，依照模型能力填）
max_tokens	每次回应的最大输出（token数，官方建议4096/8192之类）
vision	支持多模态（如Gemini/Claude/Sonnet等具备图文能力才设true）
temperature	控制AI输出随机性，越低回答越稳定，代码任务建议设为0

4、配置KEY

在 VSCode 页面进行操作：

Windows/Linux 环境：Ctrl+Shift+P
Mac 环境：Cmd+Shift+P

输入下面的命令，然后将KEY输入进去：

Set OAl Compatible Multi-Provider Apikey

四、模型使用

点击进入 Copilot 聊天框
点击模型选择框
点击模型管理（Manage Modules....）
选择 OAI Compatible 将左侧的隐藏眼睛关闭，这样我们自己设定的模型就会出现在选择框了。

保姆级教程：用llama.cpp加载Qwen2.5-VL多模态模型（附常见错误解决）

保姆级教程：用llama.cpp加载Qwen2.5-VL多模态模型（附常见错误解决）最近在本地跑多模态模型的需求越来越多了，尤其是像Qwen2.5-VL这种既能看懂图又能聊天的模型，对于想自己捣鼓点智能应用的朋友来说，吸引力不小。但说实话，从下载模型到真正跑起来，中间的路可不好走，尤其是用llama.cpp这个工具，版本兼容、环境配置、代码调用，每一步都可能遇到意想不到的坑。我自己在折腾Qwen2.5-VL-3B-Instruct的时候，就花了不少时间解决各种报错。这篇文章，我就把自己踩过的坑和总结出来的完整流程，掰开揉碎了讲给你听。无论你是刚接触本地大模型的初学者，还是想给项目集成多模态能力的中级开发者，跟着这篇教程走，应该能帮你省下不少搜索和调试的时间。我们的目标很简单：让你在自己的电脑上，顺利地用llama.cpp加载Qwen2.5-VL，并让它准确地“看懂”你给的图片。 1. 环境准备与模型获取在动手写代码之前，有两件事必须搞定：一个是准备好能跑起来的llama.cpp环境，另一个是拿到正确且相互匹配的模型文件。很多人第一步就栽了跟头，要么环境装不上，要么模型文件不

AIGC时代大模型幻觉问题深度治理：技术体系、工程实践与未来演进

文章目录 * 一、幻觉问题的多维度透视与产业冲击 * 1.1 幻觉现象的本质特征与量化评估 * 1.2 产业级影响案例分析 * 二、幻觉问题的根源性技术解剖 * 2.1 数据污染的复合效应 * 2.1.1 噪声数据类型学分析 * 2.1.2 数据清洗技术实现 * 2.2 模型架构的先天缺陷 * 2.2.1 注意力机制的局限性 * 2.2.2 解码策略的博弈分析 * 2.3 上下文处理的边界效应 * 三、多层次解决方案体系构建 * 3.1 数据治理体系升级 * 3.1.1 动态数据质量监控 * 3.1.2 领域知识图谱构建 * 3.

Trae、Cursor、Copilot、Windsurf对比

我最开始用Copilot（主要是结合IDE开发时进行代码补全，生成单元测试用例），但是后面又接触了Cursor，发现Cursor比Copilot更加实用，Cursor生成的单元测试用例更加全面。多以网上查了查资料，这里记录分享一下。这篇文章资料来自于网络，是对部分知识整理，这里只是记录一下，仅供参考前言随着AI技术的爆发式发展，AI编程工具正在重塑软件开发流程。GitHub Copilot作为先驱者长期占据市场主导地位，但新一代工具如Cursor、Windsurf和Trae正以颠覆性创新发起挑战。本文基于多维度实测数据，深度解析三款工具的核心竞争力，揭示AI编程工具的格局演变趋势。工具定位与核心技术 1. Cursor：智能化的全能助手基于VS Code生态深度改造，Cursor融合GPT-4和Claude 3.5模型，支持自然语言转代码生成、跨文件智能补全和自动文档生成。其核心优势在于： * 上下文感知能力：可同时分析10+个关联文件的语义逻辑 * Agent模

Llama-3.2-3B步骤详解：Ollama部署后启用GPU加速（CUDA/cuDNN）全流程

Llama-3.2-3B步骤详解：Ollama部署后启用GPU加速（CUDA/cuDNN）全流程 1. 为什么需要GPU加速？——从“能跑”到“跑得快”的关键跃迁你可能已经用Ollama成功拉起了Llama-3.2-3B，输入几句话就能看到回复，一切看似顺利。但当你连续提问、生成稍长文本，或者尝试多轮对话时，会明显感觉到响应变慢——几秒甚至十几秒的等待，让原本流畅的交互体验打了折扣。这不是模型能力的问题，而是默认情况下Ollama在CPU上运行。Llama-3.2-3B虽是3B参数量的轻量级模型，但其Transformer结构天然适合并行计算。一块中端消费级显卡（比如RTX 3060或更高），在GPU模式下推理速度可比CPU快3～5倍，显存占用更合理，还能释放出CPU资源去做其他事。更重要的是，Ollama官方明确支持CUDA加速，且无需手动编译模型或修改源码。整个过程不涉及复杂配置文件编辑，也不要求你成为CUDA专家——只要你的机器有NVIDIA显卡、驱动正常、CUDA环境基础就绪，就能完成切换。本文将带你从零开始，一步步验证环境、启用加速、实测对比，并解决你最可能卡