GitHub开源项目日报 · 2026年2月5日 · 开源多模态代理栈与记忆框架

GitHub开源项目日报 · 2026年2月5日 · 开源多模态代理栈与记忆框架

本期榜单主要项目覆盖企业自动化、AI 代理、开发工具与安全治理等方向,体现本地化、多平台协作与高效工作流趋势。超过 10000 星的项目包括 UI-TARS-desktop、 Claude-Mem、 Cognee、 Superpowers、 Trivy、 fish-shell、 nvm、 Prompt Optimizer 等,分别在 GUI/Vision 集成、跨会话记忆、知识图谱、编码工作流、容器与代码安全、友好 CLI 与版本管理、提示词优化等领域发挥作用。日增长方面,Superpowers 与 Claude-Mem 的日增速高达 382.08 星与 149.38 星,显示出自动化编码与学习工具的热度。

根据Github Trendings的统计,共有以下项目上榜:

排名项目名称项目语言
1开放源代码多模态 AI 代理栈 (bytedance/UI-TARS-desktop)TypeScript
2Codex 技能目录(Skills Catalog for Codex) (openai/skills)Python
3Claude-Mem:Claude Code 会话记忆持久化插件 (thedotmack/claude-mem)TypeScript
4prek:Rust 重构的 pre-commit 替代工具 (j178/prek)Rust
5Cognee:AI代理的持续记忆与知识图谱管线 (topoteretes/cognee)Python
6Agentic 技能框架与软件开发工作流(Superpowers) (obra/superpowers)Shell
7Trivy:综合性容器与代码库安全扫描器 (aquasecurity/trivy)Go
8fish-shell:友好交互式命令行外壳 (fish-shell/fish-shell)Rust
9Node Version Manager (nvm) - POSIX Bash 版本管理器 (nvm-sh/nvm)Shell
10Prompt Optimizer 提示词优化与模型调优工具 (linshenkx/prompt-optimizer)TypeScript, Vue

Rank 1 - 开放源代码多模态 AI 代理栈

  • 项目路径:bytedance/UI-TARS-desktop
  • 创建时间:创建于1年前
  • 项目成长:平均每天获得69.5个星星
  • 开发语言:TypeScript
  • 协议类型:Apache License 2.0
  • Star数量:26538 个
  • Fork数量:2596 次
  • 贡献人数:44 人
  • Open Issues数量:340 个
  • Github地址:https://github.com/bytedance/UI-TARS-desktop.git
  • 项目首页: https://agent-tars.com

关键词: 多模态AI, Agent TARS, UI-TARS-desktop, GUI Agent, Vision, CLI, Web UI, MCP, MCP Servers, 本地处理, 远程操作, Seed-1.5, UI-TARS, 模型集成

趋势变化

上一次上榜时间:2026-01-28,Star 增长:+1578 (+6.3%)

项目简介

TARS 是一个开放源代码的多模态 AI 代理栈,当前包含 Agent TARS 与 UI-TARS-desktop。通过 CLI 与 Web UI 将 GUI Agent 与 Vision 能力带入终端、桌面、浏览器和产品,支持与 MCP 工具的无缝集成,目标是在工作流中以更接近人类的方式完成任务,并提供对真实世界工具的強大连接能力。

本项目解决了将 GUI 操作、视觉认知与多模态大语言模型整合到实际工作流程中的难题,提供本地化处理能力与对真实世界工具(如 MCP)的接入。通过 Event Stream、MCP 集成与跨平台入口(CLI/Web UI),实现终端、桌面、浏览器等环境的一致任务执行、可观测性与扩展性,降低人工操作成本与错误率,促进复杂任务的自动化实现。

应用场景

  • 企业级自动化场景:在企业内部工作流中,利用 Agent TARS 的 GUI Agent 与 Vision 能力,在 CLI/Web UI 中构建自动化任务,自动化表单填写、信息检索与工具链对接,结合 MCP 实现跨系统协同,提升生产效率与可重复性,同时支持本地与远程环境的部署。
  • 个人开发者/学习工具场景:个人开发者或学生在本地学习 GUI 自动化和跨应用协作,借助 UI-TARS-desktop 的本地与远程操作,在 Seed-1.5-VL/1.6 模型支撑下设计原型,结合 UI-TARS SDK 构建自定义代理,快速迭代学习路径。
  • 远程运维与桌面协作场景:通过 Remote Computer Operator 与 Remote Browser Operator 远程控制计算机与浏览器,执行故障诊断、脚本发布与自动化演练;结合 Event Stream Viewer 实时追踪数据流、调试与协作,降低运维成本并提升一致性。

Read more

从 Copilot 到工程化 Agent 执行框架:基于OpenCode + OpenSpec 的企业级 AI Coding 落地实践

从 Copilot 到工程化 Agent 执行框架:基于OpenCode + OpenSpec 的企业级 AI Coding 落地实践

引言:AI Coding 进入规范驱动自动化时代         当前,许多开发者在使用 AI 编程助手时正普遍面临—个痛点:在处理大型项目时, AI 似乎会“遗忘”上下文,导致代码回归、引入新 Bug 或生成不符合项目规范的混乱代码。正如研发同学反复出现的挫败感:  “代码库越大, AI 弄得越乱”。         这种被称为“Vibe Coding”的模式,是 AI 辅助工程必要的、但也是原始的第—步。它更像—种不可预测的艺术,而非可重复、可扩展的科学。要真正释放 AI 的生产力,我们必须迎来—次范式的进化:从凭感觉的“Vibe Coding” ,转向由规范驱动的(Spec-Driven Development)专业化 AI 工程新范式。         本文将深入探讨如何将强大的

By Ne0inhk
我用Openclaw + Claude搭了一套自动写作系统,每天省3小时

我用Openclaw + Claude搭了一套自动写作系统,每天省3小时

这是我目前最重要的一套AI工作流。从信息获取到发布,几乎不用手动完成。 一、为什么我要搭建这套系统? 信息过载的困境 如果你也在持续关注AI,应该会有同样的感受: 信息太多了。 每天打开 X、公众号、GitHub、技术社区,都会冒出大量新内容。 AI模型更新、工具更新、Agent框架、自动化方案…… 想跟上这些信息,本身就已经是一项工作。 手动写作的低效循环 更别说: * 整理信息 * 找选题 * 写文章 * 配图 * 发布到各个平台 如果全部手动完成,写作就会变成一件非常消耗精力的事。 我一度也在这种状态里: 想持续输出,但写作本身占用了太多时间。 一个关键问题 后来我开始思考一个问题: 如果写作这件事可以被"系统化",会发生什么? 于是,我不再把AI当成写作工具。 而是开始搭一套完整的 AI写作工作流。 二、思路转变:从优化写作到优化流程 大多数人的AI写作方式 大多数人使用AI写作,是这样:

By Ne0inhk

Llama-factory 详细学习笔记:第六章:DPO (直接偏好优化) 实战 (难点)

第六章:DPO (直接偏好优化) 实战 (难点) 在SFT之后,我们的模型学会了“说话”,但它的回答可能仍然是“正确的废话”,或者在面对开放性问题时,其回答的安全性、有用性和真实性仍有待提高。传统的解决方案是强化学习(RLHF),即先训练一个奖励模型(RM),再用这个RM作为环境,通过复杂的强化学习算法(如PPO)来优化语言模型。然而,RLHF流程复杂、训练不稳定、且对计算资源要求极高,令许多开发者望而却步。 直接偏好优化 (Direct Preference Optimization, DPO) 的出现,如同一道曙光,彻底改变了这一局面。它以一种极其优雅和高效的方式,实现了与RLHF相媲美甚至更好的对齐效果,但训练成本和复杂度却大大降低。本章将深入剖析DPO的核心思想、重难点配置,并通过详尽的实战步骤,带你完整地跑通一个DPO训练流程,真正让你的模型“更懂人心”。 6.1 为什么需要 DPO? (轻理论:替代 PPO,

By Ne0inhk

手把手教你部署Z-Image-Turbo,5分钟搞定AI绘画环境

手把手教你部署Z-Image-Turbo,5分钟搞定AI绘画环境 你是否还在为部署文生图模型时漫长的权重下载、复杂的依赖配置而头疼?现在,这一切都可以结束了。本文将带你5分钟内完成Z-Image-Turbo的完整部署,无需等待下载、不用手动安装依赖,真正实现“开箱即用”的AI绘画体验。 我们将使用预置了完整32.88GB模型权重的专用镜像,一键启动即可生成1024×1024高清图像,仅需9步推理,速度快到惊人。无论你是AI绘画新手,还是想快速测试效果的技术人员,这篇文章都能让你立刻上手。 准备好了吗?让我们开始吧。 1. 镜像简介:为什么选择Z-Image-Turbo? 1.1 模型核心优势 Z-Image-Turbo 是阿里达摩院基于 DiT(Diffusion Transformer)架构推出的高效文生图模型,专为高速高质量生成设计。相比传统扩散模型动辄20~50步的推理过程,它仅需9步即可输出细节丰富的图像,在RTX 4090D等高显存机型上几乎秒级出图。 更关键的是,本次使用的镜像已预置全部32.88GB模型权重文件,直接缓存在系统盘中,避免了动辄数小时的下载等

By Ne0inhk