Github Copilot Agent模式使用经验分享

Ne0inhk

21 Mar 2026 — 5 min read

本文总结了如何使用 GitHub Copilot Agent 模式，并分享实际操作经验。

前置设置

使用 VSCode Insider；
安装 GitHub Copilot（预览版）插件；
选择 Claude 3.7 Sonnet（预览版）模型，该模型在代码编写方面表现出色，同时其它模型在速度、多模态（如图像识别）及推理能力上具备优势；
工作模式选择 Agent。

操作步骤

打开 “Copilot Edits” 选项卡；
添加附件，如 “Codebase”、“Get Errors”、“Terminal Last Commands” 等；
添加 “Working Set” 文件，默认包含当前打开的文件，也可手动选择其他文件（如 “Open Editors”）；
添加 “Instructions”，输入需要 Copilot Agent 特别注意的提示词；
点击 “Send” 按钮，开始对话，观察 Agent 的表现。

其它说明

VSCode 通过语言插件提供的 lint 功能可以产生 Error 或 Warning 提示，Agent 能自动根据这些提示修正代码。
随着对话的深入，Agent 生成的代码修改可能会偏离预期。建议每次会话都聚焦一个明确的主题，避免对话过长；达到短期目标后结束当前会话，再启动新任务。
“Working Set” 下的 “Add Files” 提供 “Related Files” 选项，可推荐相关文件。
注意控制单个代码文件的行数，以免 token 消耗过快。
建议先生成基础代码，再编写测试用例，便于 Agent 根据测试结果调试和自我校验。
为限制修改范围，可在 settings.json 中添加如下配置，只修改指定目录下的文件, 仅供参考：

"github.copilot.chat.codeGeneration.instructions":[{"text":"只需修改 ./script/ 目录下的文件，不修改其他目录下的文件."},{"text":"若目标代码文件行数超过 1000 行，建议将新增函数置于新文件中，通过引用调用；如产生的修改导致文件超长，可暂不严格遵守此规则."}],"github.copilot.chat.testGeneration.instructions":[{"text":"在现有单元测试文件中生成测试用例."},{"text":"代码修改后务必运行测试用例验证."}],

常见问题

输入需求得不到想要的业务代码

需要将大任务拆分成较小的任务, 每次会话只处理一个小任务. 这是由于大模型的上下文太多会导致注意力分散.

喂给单次对话的上下文, 需要自己揣摩, 太多和太少都会导致不理解需求.

DeepSeek 模型解决了注意力分散问题, 但需要在 cursor 中使用 Deepseek API. 不清楚其效果如何.

响应缓慢问题

需要理解 token 消耗机制, token 输入是便宜且耗时较短的, token 输出贵很多, 且明显更缓慢.

假如一个代码文件非常大，实际需要修改的代码行只有三行, 但由于上下文多, 输出也多, 会导致 token 消耗很快, 且响应缓慢.

因此, 必须要考虑控制文件的大小, 不要写很大的文件和很大的函数. 及时拆分大文件, 大函数, 通过引用调用.

业务理解问题

理解问题或许有些依赖代码中的注释, 以及测试文件, 代码中补充足够的注释, 以及测试用例, 有助于 Copilot Agent 更好的理解业务.

Agent 自己生成的业务代码就有足够多的注释, 检视这些注释, 就可以快速判断 Agent 是否正确理解了需求.

生成大量代码需要 debug 较久

可以考虑在生成某个特性的基础代码后, 先生成测试用例, 再调整业务逻辑，这样 Agent 可以自行进行调试，自我验证.

Agent 会询问是否允许运行测试命令, 运行完成后会自行读终端输出, 以此来判断代码是否正确. 如果不正确, 会根据报错信息进行修改. 循环往复, 直到测试通过.

也就是需要自己更多理解业务, 需要手动写的时候并不太多, 如果测试用例代码和业务代码都不正确, Agent 既不能根据业务写出正确用例, 也不能根据用例写出正确业务代码, 这种情况才会出现 debug 较久的情况.

总结

理解大模型的 token 消耗机制, 输入的上下文很便宜，输出的代码较贵，文件中未修改的代码部分可能也算作输出, 证据是很多无需修改的代码也会缓慢输出.

因此应尽量控制单文件的大小, 可以在使用中感受 Agent 在处理大文件和小文件时, 响应速度上的差异, 这个差异是非常明显的.

Android WebRTC 播放流实战：从协议解析到性能优化

快速体验在开始今天关于 Android WebRTC 播放流实战：从协议解析到性能优化的探讨之前，我想先分享一个最近让我觉得很有意思的全栈技术挑战。我们常说 AI 是未来，但作为开发者，如何将大模型（LLM）真正落地为一个低延迟、可交互的实时系统，而不仅仅是调个 API？这里有一个非常硬核的动手实验：基于火山引擎豆包大模型，从零搭建一个实时语音通话应用。它不是简单的问答，而是需要你亲手打通 ASR（语音识别）→ LLM（大脑思考）→ TTS（语音合成）的完整 WebSocket 链路。对于想要掌握 AI 原生应用架构的同学来说，这是个绝佳的练手项目。从0到1构建生产级别应用，脱离Demo，点击打开从0打造个人豆包实时通话AI动手实验 Android WebRTC 播放流实战：从协议解析到性能优化在移动直播、在线教育、视频会议等场景中，WebRTC技术凭借其低延迟、点对点通信的特性成为首选方案。但在Android平台上实现稳定流畅的播放流，

Qwen3-VL-WEBUI部署避坑：常见启动失败原因及解决方案

Qwen3-VL-WEBUI部署避坑：常见启动失败原因及解决方案 1. 背景与场景介绍 1.1 Qwen3-VL-WEBUI 是什么？ Qwen3-VL-WEBUI 是基于阿里云开源的 Qwen3-VL-4B-Instruct 模型构建的一站式可视化推理界面，专为多模态任务设计。它允许用户通过图形化操作完成图像理解、视频分析、GUI代理控制、OCR识别、代码生成等复杂任务，极大降低了大模型在视觉语言场景下的使用门槛。该WEBUI通常以内置镜像形式提供，支持一键部署于本地或云端GPU服务器（如NVIDIA RTX 4090D），适用于开发者、研究人员和企业级应用团队快速验证多模态能力。 1.2 部署痛点为何频发？尽管官方提供了“一键部署+自动启动”的理想流程（如“部署镜像 → 等待启动 → 点击访问”），但在实际落地过程中，大量用户反馈出现服务无法启动、端口绑定失败、依赖缺失、显存溢出等问题。这些问题往往源于环境配置不当、资源不足或镜像版本缺陷。本文将系统梳理 Qwen3-VL-WEBUI 常见启动失败场景，结合真实工程经验，提供可落地的排查路径与解决方案，帮助你绕

2026年多模态AI落地趋势：Qwen3-VL-WEBUI+弹性GPU部署详解

2026年多模态AI落地趋势：Qwen3-VL-WEBUI+弹性GPU部署详解 1. 引言：多模态AI进入规模化落地关键期随着大模型技术从纯文本向视觉-语言一体化演进，2026年将成为多模态AI真正“走出实验室、走进产线”的关键一年。在这一进程中，阿里云推出的 Qwen3-VL 系列模型凭借其强大的视觉理解与生成能力，正成为工业界和开发者社区关注的焦点。而为了让这一先进模型更易用、更贴近实际场景，社区迅速孵化出 Qwen3-VL-WEBUI —— 一个集成了模型推理、交互式界面与轻量化部署能力的开源项目。结合弹性GPU资源调度机制，开发者可实现“一键部署 + 按需扩容”的高效落地模式。本文将深入解析： - Qwen3-VL-WEBUI 的核心架构与功能亮点 - 阿里开源版本的技术特性（内置 Qwen3-VL-4B-Instruct） - 如何通过弹性GPU实现低成本、高可用的生产级部署 - 实际应用场景中的性能表现与优化建议帮助你在新一轮多模态浪潮中抢占先机。 2. Qwen3-VL-WEBUI 核心能力深度解析 2.1 什么是 Qwen3-VL-WEBUI？

[开源推荐] 基于 Vue 3 + Hiprint 的 Web 打印设计器 vg-print：拖拽设计、静默打印一站式方案

在 Web 开发中，打印功能一直是一个让人头疼的痛点。传统的 CSS 打印难以精确控制分页、页眉页脚和复杂布局，而市面上的打印插件要么收费昂贵，要么集成复杂。最近在项目中基于著名的 hiprint 库，封装了一套开箱即用的 Vue 3 打印设计组件库 —— vg-print 。它不仅支持可视化拖拽设计模板，还集成了预览、PDF/图片导出，甚至支持配合客户端实现静默打印。今天就把这个开源项目分享给大家，希望能帮到有类似需求的开发者。为什么选择 vg-print？ vg-print 是一个基于 Vue 3 生态的打印解决方案。它不仅仅是对 hiprint 的简单封装，更提供了一个完整的 FullDesigner 设计器组件。核心痛点解决： * 可视化设计：不再手写复杂的打印样式，直接拖拽生成模板。 * 开箱即用：引入组件即可使用，无需繁琐的初始化配置。 * 功能全面