跳到主要内容
Fara-7B:微软推出高效计算机代理模型 | 极客日志
Python AI 算法
Fara-7B:微软推出高效计算机代理模型 综述由AI生成 Fara-7B 是微软推出的 70 亿参数代理小语言模型,专为计算机使用设计。它支持本地部署,具备视觉操作能力,能在网页任务中实现高效自动化。模型基于 Qwen2.5-VL-7B 微调,在多个 Web 代理基准测试中表现优于同类大小及更大系统。文章介绍了安装方法(vLLM 或 Azure Foundry)、评估基准 WebTailBench 及可重复性设置,适用于日常网络任务自动化场景。
未来可期 发布于 2026/3/16 更新于 2026/5/6 19 浏览Fara-7B 简介
Fara-7B 是微软的第一个代理小语言模型(SLM),专门设计用于计算机使用。Fara-7B 仅具有 70 亿个参数,是一种超紧凑的计算机使用代理(CUA),在其尺寸类别内实现了最先进的性能,并可与更大、更资源密集型代理系统竞争。
本地使用指南
尝试在本地使用 Fara-7B,如下所示(请参见 GitHub 仓库安装部分有关 Windows 的详细指示)或通过 Magentic-UI:
git clone https://github.com/microsoft/fara.git
cd fara
python3 -m venv .venv
source .venv/bin/activate
pip install -e .
playwright install
然后在一个过程中,托管模型:
vllm serve "microsoft/Fara-7B" --port 5000 --dtype auto
然后,您可以用以下方式迭代查询它:
fara-cli --task "whats the weather in new york now"
要尝试在 Magentic-UI 中使用 Fara-7B,请按照以下说明。你需要像以前一样为模型提供服务,但你可以使用 Magentic-UI,而不是 fara-cli,Magentic-UI 有一个漂亮的 UI。
注意事项:
如果您使用的是 Windows,我们强烈建议使用 WSL2(Linux 的 Windows 子系统)。
你可能需要做 --tensor-parallel-size 2 如果内存不足,使用 vllm 命令
任务类型 演示 购物 [视频演示] GitHub 问题 [视频演示] 配有奶酪的说明 [视频演示]
Fara-7B 的独特之处
与传统的基于文本的聊天模式不同,Fara-7B 利用计算机界面——鼠标和键盘——代表用户执行多步任务。该模式:
视觉操作 : 通过感知网页并执行滚动、输入和直接点击预测坐标等操作,而不使用无障碍树或单独的解析模型
支持设备端部署 : 由于其紧凑的 7B 参数大小,减少了延迟并提高了隐私性,因为用户数据保持在本地
高效完成任务 : 平均每项任务只有16 个步骤,而可比模型为41 个
Fara-7B 是使用一种基于 Magentic-One 多代理框架的新型合成数据生成管道进行训练的,具有 14.5 万条轨迹,涵盖各种网站、任务类型和难度级别。该模型基于 Qwen2.5-VL-7B 并通过有监督微调进行训练。
关键能力
Fara-7B 可以自动化日常的网络任务,包括:
搜索信息和总结结果
填写表格和管理账户
预订旅行、电影票和餐厅预订
在各零售商之间购物和比较价格
查找招聘信息和房地产信息
演出亮点
Fara-7B 在多个 Web 代理基准测试中实现了最先进的结果,性能优于同类大小的模型和更大的系统:
模型 参数 WebVoyager 在线 M2W DeepShop WebTailBench SoM 代理人 (GPT-4o-0513) - 90.6 57.7 49.1 60.4 SoM 代理人 (o3-mini) - 79.3 55.4 49.7 52.7 SoM 代理人 (GPT-4o) - 65.1 34.6 16.0 30.8 GLM-4.1V-9B-思考 9B 66.8 33.9 32.0 22.4 OpenAI 计算机使用预览 - 70.9 42.9 24.7 25.7 UI-TARS-1.5-7B 7B 66.4 31.3 11.6 19.5 法拉 -7B 7B 73.5 34.1 26.2 38.4
表:在线代理评估结果显示了四个网络基准的成功率(%)。结果平均为 3 次运行。
WebTailBench: 现实世界 Web 任务的新基准 我们正在发布 WebTailBench,一个新的评估基准,专注于 11 种现实世界任务类型,这些任务类型在现有基准中代表性不足或缺失。该基准包括 609 个不同类别的任务,前 8 个部分测试单一技能或目标(通常在单个网站上),其余 3 个评估更困难的多步骤或跨站点任务。
WebTailBench 详细结果 任务分段 任务 SoM GPT-4o-0513 SoM o3-mini SoM GPT-4o GLM-4.1V-9B OAI 应用程序使用 UI-TARS-1.5 法拉 -7B 单点任务 购物 56 62.5 71.4 38.1 31.0 42.3 41.1 单点任务 航班 51 60.1 39.2 11.1 10.5 17.6 10.5 单点任务 酒店 52 68.6 56.4 31.4 19.9 26.9 35.3 单点任务 餐馆 52 67.9 59.6 47.4 32.1 35.9 22.4 单点任务 活动 80 70.4 62.9 41.7 26.3 30.4 9.6 单点任务 票务 57 58.5 56.7 37.4 35.7 49.7 30.4 单点任务 房地产 48 34.0 17.4 20.1 16.0 9.0 9.7 单点任务 工作/职业生涯 50 49.3 44.0 32.7 22.7 20.7 20.7 多步骤任务 购物清单(2 项) 51 66.0 62.7 17.0 7.8 34.0 20.9 多步骤任务 比较购物 57 67.3 59.1 27.5 22.8 1.2 8.8 多步骤任务 组成任务 55 51.5 39.4 26.7 17.0 10.3 9.1 全部的 宏观平均值 609 59.7 51.7 30.1 22.0 25.3 19.9 全部的 微观平均值 609 60.4 52.7 30.8 22.4 25.7 19.5
表:所有 11 个段 WebTailBench 结果的细目。成功率(%)是 3 次独立运行的平均值。Fara-7B 在所有任务类别的计算机使用模型中取得了最高的性能。
LLM-作为法官评估的任务验证管道
WebTailBench 的官方人工注释(与 BrowserBase 合作)
评价基础设施
浏览器自动化框架 - 一个跨浏览器自动化框架,可以复制浏览器环境
抽象 Web 代理接口 - 允许将任何模型从任何源集成到评估环境中
Fara-Agent 类 - 运行 Fara 模型的参考实现
注意: Fara-7B 是一个实验性发布,旨在邀请社区进行实际操作和反馈。我们建议在沙盒环境中运行它,监控其执行,并避免敏感数据或高风险域。
安装
Linux 下面的说明适用于 Linux 系统,有关 Windows 的说明,请参阅下面的 Windows 部分。
使用 pip 安装包,并使用 Playwright 设置环境:
git clone https://github.com/microsoft/fara.git
cd fara
python3 -m venv .venv
source .venv/bin/activate
pip install -e .[vllm]
playwright install
注意:如果您计划只使用 Azure Foundry 托管,您可以跳过 [vllm] 然后就做 pip install -e .
Windows 对于 Windows,我们强烈建议使用 WSL2(适用于 Linux 的 Windows 子系统)来提供类似 Linux 的环境。然而,如果您更喜欢在 Windows 上原生运行,请遵循以下步骤:
git clone https://github.com/microsoft/fara.git
cd fara
python3 -m venv .venv
.venv\Scripts\activate
pip install -e .
python3 -m playwright install
托管模型 推荐: 入门最简单的方法是使用 Azure Foundry 托管,它不需要 GPU 硬件或模型下载。或者,如果您有可用的 GPU 资源,您可以使用 vLLM 自托管。
Azure Foundry 托管(推荐) 在 Azure Foundry 上部署 Fara-7B,无需下载权重或管理 GPU 基础设施。
在 Azure Foundry 上部署 Fara-7B 模型并获取终端 URL 和 API 密钥
然后创建一个端点配置 JSON 文件(例如,azure_foundry_config.json):
{
"model" : "Fara-7B" ,
"base_url" : "https://your-endpoint.inference.ml.azure.com/" ,
"api_key" : "YOUR_API_KEY_HERE"
}
fara-cli --task "how many pages does wikipedia have" --endpoint_config azure_foundry_config.json [--headful]
注意:您还可以用参数指定端点配置。--base_url [your_base_url] --api_key [your_api_key] --model [your_model_name] 而不是使用配置 JSON 文件。
注意:如果您看到错误,fara-cli 命令找不到,请尝试:
python -m fara.run_fara --task "what is the weather in new york now"
使用 vLLM 或 LM Studio/Ollama 进行自助托管 如果您可以访问 GPU 资源,您可以使用 vLLM 自托运行 Fara-7B。这需要一台具有足够 VRAM 的 GPU 机器(例如,24GB 或更多)。
仅在 Linux 上:所需要的只是运行以下命令来启动 vLLM 服务器:
vllm serve "microsoft/Fara-7B" --port 5000 --dtype auto
对于量化模型或较低的 VRAM GPU,请参见 HuggingFace 上的 Fara-7B GGUF。
对于 Windows/Mac,vLLM 本机上不受支持。您可以在 Windows 上使用 WSL2 运行上述命令或如下所述的 LM Studio/Ollama。
否则,您可以使用 LM Studio 或 Ollama 在本地托管模型。我们目前推荐以下 GGUF 版本的我们的模型 HuggingFace 上的 Fara-7B GGUF 用于 LM Studio 或 Ollama。选择适合您的 GPU 的最大型号。请确保上下文长度设置为至少 15000 个令牌,温度设置为 0 以获得最佳效果。
fara-cli --task "what is the weather in new york now"
如果您没有使用 vLLM 来托管,请指定正确的 --base_url [your_base_url] --api_key [your_api_key] --model [your_model_name]
如果你看到一个错误,那么 fara-cli 命令找不到,请尝试:
python -m fara.run_fara --task "what is the weather in new york now"
可重复性 我们提供了一个框架 webeval/ 在 WebVoyager 和 OnlineMind2Web 上重现我们的结果。由于日常变化,实时网站上的代理评估面临独特的挑战。我们实施了几项措施以确保可靠和可比的评估:
BrowserBase Integration 我们使用 BrowserBase 来管理浏览器会话托管,从而实现可靠的浏览器实例管理。
时间敏感的任务更新 在像 WebVoyager 这样的基准测试中,任务可能会变得过时或不可能。我们:
从最初的 WebVoyager 基准测试中删除了约 48 个不可能完成的任务
更新了约 50 项任务,并设定了未来日期,以确保它们能够实现
示例:"从 2024 年 1 月 1 日至 1 月 4 日在巴厘岛搜索酒店" → "从 2026 年 1 月 1 日至 1 月 4 日搜索巴厘岛酒店"
我们更新的 WebVoyager 基准可在以下网址获取:webeval/data/webvoyager/WebVoyager_data_08312025.jsonl
环境错误处理 浏览器错误(连接丢失、页面超时)得到了健壮的处理:
当环境错误发生时,轨迹最多重试 5 次
完整但不正确的轨迹永远不会被重试
每次重试都从一个新的浏览器会话开始,没有保留状态
步骤预算 每个轨迹在所有在线基准上最多限制为 100 个动作。超过这个预算而不选择停止的轨迹被认为是错误的。
WebEval 包安装 conda create --name fara_webeval python=3.12
conda activate fara_webeval
pip install -e .
git submodule update --init --recursive
cd autogen/python/packages
pip install -e autogen-core
pip install -e autogen-ext
cd webeval
pip install -e .
playwright install
运行评估 确保您在'中设置了有效的 OpenAI GPT-4o 端点 endpoint_configs_gpt4o/dev 为了以法官身份运行 WebVoyager LLM!
python webvoyager.py --model_url /path/where/you/want/to/download/model/ --model_port 5000 --eval_oai_config ../endpoint_configs_gpt4o/dev/ --out_url /path/to/save/eval/files --device_id 0,1 --processes 1 --run_id 1 --max_rounds 100
python om2w.py --model_url /path/where/you/want/to/download/model/ --model_port 5000 --eval_oai_config ../endpoint_configs_o4/dev/ --eval_model o4-mini --out_url /path/to/save/eval/files --device_id 0,1 --processes 1 --run_id 1 --max_rounds 100
python webvoyager.py --model_endpoint ../../endpoint_configs/ --eval_oai_config ../endpoint_configs_gpt4o/dev/ --out_url /path/to/save/eval/files --processes 1 --run_id 1_endpoint --max_rounds 100
python om2w.py --model_endpoint ../../endpoint_configs/ --eval_oai_config ../endpoint_configs_o4/dev/ --eval_model o4-mini --out_url /path/to/save/eval/files --processes 1 --run_id 1_endpoint --max_rounds 100
注释
我们使用与 WebVoyager 相同的 LLM 作为评判的提示和模型(GPT-4o),因此有 --eval_oai_config 论点
放 --browserbase 用于浏览器会话管理(需要导出 API 密钥和项目 ID 环境变量)
由于已知问题,避免将单个 vLLM 部署与超过~10 个并发进程过载
参见调试输出。fara/webeval/scripts/stdout.txt
评估结果分析
评价产出结构 评估结果存储在 --out_url 在以下组织的文件夹中:
/runs/WebSurfer-fara-100-max_n_images-3/fara-7b/<username>/WebVoyager_WebVoyager_data_08312025.jsonl/<run_id>
gpt_eval/ - LLM 作为法官的评估结果
traj/ - 按任务划分的轨迹子目录,包括:
*-final_answer.json(例如,Amazon--1_final_answer.json) - <no_answer> 指示中止或步骤预算超出
scores/*_eval.json - LLM 法官评分(gpt_eval.json 对于 WebVoyager 来说,WebJudge_Online_Mind2Web_eval-3.json 用于在线-Mind2Web)
web_surfer.log - 行动历史和错误
screenshot_X.png - 在每次操作前捕获的屏幕截图
times.json - 包含任务的开始和结束时间
core.log - 包含高级日志,如轨迹是否需要启动或已经缓存/完成、评估分数、持续时间和遇到的错误
运行分析 cd webeval/scripts/analyze_eval_results/
jupyter notebook analyze.ipynb
识别执行中期中止的轨迹和诊断原因
计算非中止轨迹的平均分数
区分中止的轨迹(采样过程中的错误)和已完成的轨迹("终止()调用"或超出步骤预算)
要重新运行失败的任务,请使用相同的命令再次执行评估脚本 run_id 和 username -它会跳过非中止的任务。
引用 如果您在研究中使用 Fara-7B,请使用以下 BibTeX 条目。
@article{fara7b2025,
title={Fara-7B: An Efficient Agentic Model for Computer Use},
author={Awadallah, Ahmed and Lara, Yash and Magazine, Raghav and Mozannar, Hussein and Nambi, Akshay and Pandya, Yash and Rajeswaran, Aravind and Rosset, Corby and Taymanov, Alexey and Vineet, Vibhav and Whitehead, Spencer and Zhao, Andrew},
journal={arXiv:2511.19663},
year={2025}
}
相关免费在线工具 加密/解密文本 使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
RSA密钥对生成器 生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
Mermaid 预览与可视化编辑 基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
随机西班牙地址生成器 随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online
Gemini 图片去水印 基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online
curl 转代码 解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online