猫头虎AI分享|字节开源了一款具备长期记忆能力的多模态智能体:M3-Agent 下载、安装、配置、部署教程

猫头虎AI分享|字节开源了一款具备长期记忆能力的多模态智能体:M3-Agent 下载、安装、配置、部署教程

猫头虎AI分享|字节开源了一款具备长期记忆能力的多模态智能体:M3-Agent

大家好,我是猫头虎 🦉🐯,今天给大家带来一个超硬核的开源 AI 项目分享:M3-Agent。这是一款由字节开源的、多模态智能体框架,最大的亮点是它具备长期记忆能力,能够像人类一样“看、听、记、推理”。

项目地址: 👉 猫头虎开源 fork github


什么是 M3-Agent?

M3-Agent 是一款能够实时处理视觉和听觉输入,并将其转化为长期记忆的多模态智能体。它不仅可以存储情景记忆(episodic memory),还能够逐渐积累语义记忆(semantic memory),形成类似人类的长期知识库。

其核心创新点在于:

  • 实体为中心的记忆系统:把与同一实体相关的多模态信息(如人脸、声音、相关知识)关联起来,构建成一个图谱。
  • 多轮迭代推理:在执行任务时,能够从长期记忆中检索相关信息来辅助推理,而不仅仅依赖即时上下文。
  • 跨模态理解能力:它不局限于单一模态,能够在视觉、听觉、语言之间进行信息融合与推理。

这一设计让 M3-Agent 在基准测试(M3-Bench)中表现相当突出,特别是在需要长期记忆和跨模态推理的任务上,超越了 Gemini-1.5-pro 和 GPT-4o 等强大基线模型。

文章目录

效果演示

M3-Agent 不只是理论上的“记忆体”,而是有真实的 demo 展示:

在这里插入图片描述


A demo of M3-Agent as a personal assistant!

在这里插入图片描述

它可以结合视觉与语音输入,像一个智能助手一样,记住并关联过往的对话和环境信息。


M3-Bench:专门的长视频推理基准

为了测试智能体的长期记忆与跨模态推理能力,M3-Agent 团队设计了 M3-Bench ——一个长视频问答数据集。

  • M3-Bench-robot:100 个机器人第一视角录制的真实场景视频
  • M3-Bench-web:920 个来自网络的多样化长视频

这些视频被设计成模拟智能体在真实场景中的输入,并配有开放式问答任务,考察智能体能否构建一致的长期记忆并在此基础上进行有效推理。

在这里插入图片描述


M3-Bench 示例

在这里插入图片描述


统计概览


系统架构

M3-Agent 的系统架构非常有意思,主要分为两个并行流程:

  1. 记忆(Memorization):实时处理视频、音频流,生成情景记忆与语义记忆,并构建成多模态图谱
  2. 控制(Control):在执行任务时,从长期记忆中检索相关信息,进行多轮推理,最终完成目标。
在这里插入图片描述


Architecture of M3-Agent

这种图谱化的长期记忆结构,让 M3-Agent 能更深入、更一致地理解环境,而不是“短时记忆式”的处理。


实验结果

在 M3-Bench 和其他跨模态推理任务上,M3-Agent 的表现非常亮眼,超越了 Gemini-1.5-pro 和 GPT-4o 等基线模型:

在这里插入图片描述
  • M3-Bench-robot:准确率提升 8.2%
  • M3-Bench-web:提升 7.7%
  • VideoMME-long:提升 5.3%

这意味着它在需要长期记忆和多模态推理的场景下,已经展现出了接近“人类记忆机制”的能力。


本地运行指南

如果你想在本地尝试 M3-Agent,可以按照以下步骤操作:

⚠️ 提前在 configs/api_config.json 中添加 API 配置

1. 环境搭建

bash setup.sh pip install git+https://github.com/huggingface/transformers@f742a644ca32e65758c3adb36225aef1731bd2a8 pip install qwen-omni-utils==0.0.4 

2. 视频切片

将视频切成 30 秒片段,方便记忆处理:

#!/bin/bashvideo="robot/bedroom_01"input="data/videos/$video.mp4"mkdir-p"data/clips/$video"duration=$(ffprobe -v error -show_entriesformat=duration -ofdefault=noprint_wrappers=1:nokey=1"$input")duration_seconds=$(echo"$duration"|awk'{print int($1)}')segments=$((duration_seconds /30+1))for((i=0; i<segments; i++));dostart=$((i *30))end=$(((i +1)*30))output="data/clips/$video/$i.mp4" ffmpeg -ss$start-i"$input"-t30-c copy "${output}"done

3. 生成记忆图谱

python data_preparation/generate_memory_qwen.py \--data_file data/data.jsonl 

4. 可视化记忆图谱

python visualization.py \--mem_path data/memory_graphs/robot/bedroom_01.pkl \--clip_id1

5. 控制与推理

使用 M3-Agent-Control 模型进行问答与评估:

python m3_agent/control.py \--data_file data/annotations/robot.json 

训练资源


总结

M3-Agent 是一个非常值得关注的开源项目,它让多模态智能体真正具备了“长期记忆”与“跨模态推理”的能力。

相比大多数只依赖短时上下文的 LLM 助手,M3-Agent 的实体图谱式记忆多轮推理机制,让它更接近人类的认知方式,也为未来的智能体应用(如个人助手、机器人、交互式教育等)提供了新思路。

感兴趣的同学可以直接试试:
👉 猫头虎开源 fork github


Read more

零基础学AI大模型之Agent智能体

零基础学AI大模型之Agent智能体

大家好,我是工藤学编程 🦉一个正在努力学习的小博主,期待你的关注实战代码系列最新文章😉C++实现图书管理系统(Qt C++ GUI界面版)SpringBoot实战系列🐷【SpringBoot实战系列】SpringBoot3.X 整合 MinIO 存储原生方案分库分表分库分表之实战-sharding-JDBC分库分表执行流程原理剖析消息队列深入浅出 RabbitMQ-RabbitMQ消息确认机制(ACK)AI大模型零基础学AI大模型之RunnableBranch 前情摘要 1、零基础学AI大模型之读懂AI大模型 2、零基础学AI大模型之从0到1调用大模型API 3、零基础学AI大模型之SpringAI 4、零基础学AI大模型之AI大模型常见概念 5、零基础学AI大模型之大模型私有化部署全指南 6、零基础学AI大模型之AI大模型可视化界面 7、零基础学AI大模型之LangChain 8、零基础学AI大模型之LangChain六大核心模块与大模型IO交互链路 9、零基础学AI大模型之Prompt提示词工程 10、零基础学AI大模型之LangChain-PromptTe

AI 革命下半场:从对话到执行,OpenClaw 开启的执行范式革命

AI 革命下半场:从对话到执行,OpenClaw 开启的执行范式革命

从对话到执行:开源 AI 执行引擎 OpenClaw 深度解析|安装 + 实战 + 未来全指南 本文作者:ZEEKLOG 博客专家 | 专注 AI Agent 与自动化技术落地本文核心:以「AI 平权与生产力解放」为核心脉络,深度拆解 OpenClaw 的底层哲学、架构逻辑、全平台落地实操、行业实战与未来演进,新手可零门槛跟着落地,开发者可读懂 AI 从「对话」到「执行」的本质跃迁。全文干货与思考并存,建议收藏。 前言:AI 革命的下半场,是从「说到」到「做到」 人类文明的进步,从来不是靠「能说会道」,而是靠「说到做到」。 过去五年,大模型完成了

OpenSpec 完全使用指南:用规格驱动 AI 编码

OpenSpec 完全使用指南:用规格驱动 AI 编码

🚀 OpenSpec 完全使用指南:用规格驱动 AI 编码 摘要:如果你正在用 AI 写代码,却总觉得"沟通成本"比"写代码"还高——OpenSpec 可能是你一直缺的那块拼图。本文是我整理的日常使用 OpenSpec 的实战指南。 一、AI 编码的真正瓶颈不是代码,是对齐 🎯 用 AI 结对编程一段时间后,你大概率会遇到几个反复出现的问题: 🔴 常见痛点 1. 沟通成本高 你花了两段话描述一个功能,AI 听起来像是懂了,写出来的代码却跑偏了。你纠偏、它重来,几轮下来上下文窗口已经被消耗大半,真正写代码的空间反而不剩多少。 2. 上下文丢失 好不容易和 AI 对齐了设计思路,实现完一个功能。过两天打开新对话继续下一个功能,之前的所有讨论、

AI 中的skill、mcp和 Function Call

AI 中的skill、mcp和 Function Call

Skill(技能)、MCP(模型上下文协议) 和 Function Call(函数调用) 这三个概念。 简单来说,你可以这样理解: * Function Call 是基础的、标准的“能力调用机制”。 * Skill 是面向用户的、打包好的“功能产品”。 * MCP 是连接 AI 与外部资源和工具的“新一代通信协议”。 1. Function Call(函数调用) 这是最基础、最广泛使用的概念,主要由 OpenAI 在 2023 年 6 月引入并普及。 * 是什么: 一种让大语言模型(如 GPT-4)能够智能地决定在何时、以何种参数调用开发者预先定义好的函数(或工具) 的机制。它不是直接执行代码,而是输出一个结构化的调用请求。 * 如何工作: 1.