深度解析:Qwen3.5-9B如何用1/13的参数量在5大基准中超越GPT-oss-120B?混合架构、基准测试、开源许可全分析

一、前言:AI圈的"小模型奇迹"

1.1 2025-2026年最热门的AI话题

如果你问AI领域从业者,2025-2026年最热门的话题是什么?

答案很明确:"小模型超越大模型"的技术突破

而其中最震撼的,莫过于阿里通义千问(Qwen)团队在2026年初发布的Qwen3.5-9B模型

1.2 核心数据对比

模型参数量推理任务得分视觉推理得分
Qwen3.5-9B9B(90亿)81.770.1
gpt-oss-120B约120B(12000亿)80.159.7

核心事实

  • Qwen3.5-9B的参数量只有gpt-oss-120B的1/13.5
  • 但在推理任务上得分超越gpt-oss-120B(81.7 vs 80.1)
  • 在视觉推理任务上也超越(70.1 vs 59.7)

1.3 为什么这令人震惊?

传统AI领域的"参数迷信"认为:

  • ❌ “参数量越大,性能越强”
  • ❌ “小模型永远无法超越大模型”

Qwen3.5-9B的突破,打破了这一迷信。


二、Qwen3.5系列:小而强大的四大金刚

2.1 Qwen3.5-0.8B & 2B:手机也能跑的"快准狠"

2.1.1 模型定位

这两个模型主打极致效率,专为原型开发和边缘设备设计。

2.1.2 核心特性
// 模型配置示例const qwen35_08B ={ parameters:"0.8B",// 8亿参数 contextWindow:131072,// 128K tokens architecture:"Hybrid Efficiency", optimization:"Battery-first"};const qwen35_2B ={ parameters:"2B",// 20亿参数 contextWindow:131072, architecture:"Hybrid Efficiency", optimization:"Battery-first"};
2.1.3 应用场景

典型硬件

  • ✅ 标准笔记本电脑
  • ✅ 智能手机(Android/iOS)
  • ✅ 嵌入式设备(IoT)

典型应用

  • 手机端视频摘要(最长60秒,8 FPS)
  • 移动端UI导航(像素级理解)
  • 嵌入式设备对话助手

2.2 Qwen3.5-4B:轻量级Agent的强大多模态基础

2.2.1 模型定位

Qwen3.5-4B是一个强大的多模态基础模型,专为轻量级Agent设计。

2.2.2 核心特性
const qwen35_4B ={ parameters:"4B",// 40亿参数 contextWindow:262144,// 262K tokens ≈ 20万字 architecture:"Native Multimodal", capabilities:["vision","text","reasoning","tool-use"]};

多模态能力

  • ✅ 原生支持视觉、文本、推理、工具调用
  • ✅ 无需"外挂"视觉编码器
  • ✅ 统一的token空间
2.2.3 应用场景

典型应用

  • 多轮对话(262K上下文)
  • 复杂文档解析
  • 代码辅助工具
  • 图像理解(UI元素识别、物体计数)

2.3 Qwen3.5-9B:打破"参数迷信"的推理王者

这是本系列的重磅选手,核心亮点:

2.3.1 模型对比
维度Qwen3.5-9Bgpt-oss-120B优势
参数量9B~120B1/13.5
推理能力81.7分80.1分+1.6分
视觉理解70.1分59.7分+10.4分
数学能力83.2分--
文档理解87.7分78.2分+9.5分
2.3.2 硬件需求
# 推理配置import torch # 模型加载 model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen3.5-9B-Instruct", torch_dtype=torch.float16,# 半精度 device_map="auto")# 推理配置 generation_config ={"max_new_tokens":2048,"temperature":0.7,"top_p":0.9,"do_sample":True}

典型硬件

  • ✅ 单GPU(如RTX 4090):流畅运行
  • ✅ MacBook Pro(M2/M3):本地推理
  • ✅ 云GPU(如A100/A10G):高性能推理

三、技术架构:混合效率+原生多模态

Qwen3.5系列的技术创新,是其实现"小而美"的秘诀。

3.1 混合效率架构

3.1.1 传统Transformer的问题

传统Transformer架构面临"内存墙"问题:

# 标准Transformer的attention计算复杂度defstandard_attention(Q, K, V):# O(N^2) 复杂度,N是序列长度 scores = Q @ K.T / sqrt(d_k) attention = softmax(scores) @ V return attention 

问题

  • ❌ 参数量越大,推理越慢
  • ❌ 长序列计算量指数级增长
  • ❌ 内存占用高
3.1.2 混合效率架构

阿里采用了混合效率架构(Hybrid Efficiency Architecture)

# 混合效率架构classHybridEfficientAttention:def__init__(self): self.gated_delta = GatedDeltaNetwork() self.sparse_moe = SparseMixtureOfExperts()defforward(self, x):# Gated Delta:只更新必要的部分 delta = self.gated_delta(x)# 稀疏MoE:只激活部分专家网络 expert_output = self.sparse_moe(x)# 融合return x + delta + expert_output 

核心组件

  1. Gated Delta Networks(门控Delta网络)
    • 一种线性注意力形式
    • 只更新模型中的"必要"部分
    • 减少激活参数数量
  2. Sparse Mixture-of-Experts(稀疏MoE)
    • 每次推理只激活部分专家网络
    • 显著降低计算量
    • 提高推理速度

效果

  • ✅ 更高吞吐量
  • ✅ 显著降低延迟
  • ✅ 解决"内存墙"问题

3.2 原生多模态

3.2.1 传统多模态架构的问题

以往的模型往往采用"后接视觉编码器"的方式:

# 传统多模态架构classTraditionalMultimodal:def__init__(self): self.text_encoder = TextEncoder() self.vision_encoder = VisionEncoder()# 外挂 self.fusion_layer = FusionLayer()defforward(self, text, image): text_features = self.text_encoder(text) vision_features = self.vision_encoder(image)return self.fusion_layer(text_features, vision_features)

问题

  • ❌ 视觉编码器增加了额外计算开销
  • ❌ 融合层难以训练
  • ❌ 统一性差(token空间不统一)
3.2.2 原生多模态架构

Qwen3.5在训练时就采用了早期多模态token融合

# 原生多模态架构classNativeMultimodal:def__init__(self): self.multimodal_tokenizer = MultimodalTokenizer() self.unified_transformer = UnifiedTransformer()defforward(self, inputs):# 早期融合:在token层面融合多模态输入 multimodal_tokens = self.multimodal_tokenizer( text=inputs.text, image=inputs.image )# 统一的Transformer处理return self.unified_transformer(multimodal_tokens)

核心优势

  • ✅ 原生支持,无需外挂编码器
  • ✅ 统一的token空间
  • ✅ 更好的跨模态理解

能力层级

  • ✅ UI元素识别(按钮、输入框、菜单)
  • ✅ 物体计数(场景中的物体数量)
  • ✅ 视频分析(最长60秒,8 FPS)
  • ✅ 多步推理(理解复杂的视频场景)

四、基准测试:9B vs 120B,谁赢了?

4.1 基准测试方法论

Qwen团队使用了多个权威基准测试:

4.1.1 推理能力测试

GPQA Diamond(研究生级推理)

  • 测试内容:多选题、开放式问题、数学推理
  • 评分标准:准确性、逻辑连贯性
  • Qwen3.5-9B得分:81.7
  • gpt-oss-120B得分:80.1
  • 对标模型:Qwen3.5-4B (74.0)

结论

  • Qwen3.5-9B在研究生级推理上超越gpt-oss-120B
  • 超越幅度:1.6分

MMU-Pro(视觉推理)

  • 测试内容:图像理解、视觉推理
  • Qwen3.5-9B得分:70.1
  • 对标模型:Gemini 2.5 Flash-Lite (59.7), Qwen3-VL-30B-A3B (63.0)

结论

  • Qwen3.5-9B在视觉推理上表现精英
  • 领先Gemini 2.5 Flash-Lite约10分
4.1.2 数学能力测试

HMMT Feb 2025(哈佛-MIT数学竞赛)

  • 测试内容:高等数学、代数、几何
  • Qwen3.5-9B得分:83.2
  • 对标模型:Qwen3.5-4B (74.0)

结论

  • Qwen3.5-9B在数学推理上表现优异
  • 4B版本得分为74.0,差距明显
4.1.3 文档理解测试

OmniDocBench v1.5(文档识别)

  • 测试内容:表格、图表、文档布局识别
  • Qwen3.5-9B得分:87.7
  • 对标模型:gpt-oss-120B (78.2)

结论

  • Qwen3.5-9B在文档理解上全面领先
  • 超越gpt-oss-120B约9.5分

4.2 多模态能力测试

4.2.1 视频理解

Video-MME(带字幕的视频理解)

  • 测试内容:视频情节理解、人物关系、时间顺序
  • Qwen3.5-9B得分:84.5
  • Qwen3.5-4B得分:83.5
  • 对标模型:Gemini 2.5 Flash-Lite (74.6)

结论

  • Qwen3.5系列在视频理解上显著领先
  • 9B版本表现略优于4B版本
4.2.2 多语言知识

MMMLU(多语言知识)

  • 测试内容:多语言常识、文化知识
  • Qwen3.5-9B得分:81.2
  • 对标模型:gpt-oss-120B (78.2)

结论

  • Qwen3.5-9B在多语言知识上保持顶级表现
  • 领先gpt-oss-120B约3分

4.3 基准测试总结

基准测试Qwen3.5-9Bgpt-oss-120B超越幅度
GPQA Diamond(推理)81.780.1+1.6
MMU-Pro(视觉推理)70.1--
Video-MME(视频理解)84.5--
HMMT(数学)83.2--
OmniDocBench(文档理解)87.778.2+9.5
MMMLU(多语言知识)81.278.2+3.0

核心发现

  1. ✅ 在与gpt-oss-120B直接对比的测试中,Qwen3.5-9B全面超越
  2. ✅ 视觉理解和视频理解是Qwen3.5系列的核心优势
  3. ✅ 文档理解能力显著领先(87.7 vs 78.2)

五、部署与应用场景:笔记本电脑就能跑

5.1 硬件需求

5.1.1 各模型的硬件需求
模型CPU要求GPU要求内存要求典型硬件
Qwen3.5-0.8B现代CPU无GPU8GB笔记本、手机
Qwen3.5-2B现代CPU无GPU8GB笔记本、手机
Qwen3.5-4B现代CPU单GPU(4GB VRAM)16GBRTX 3060、M1/M2
Qwen3.5-9B现代CPU单GPU(8GB VRAM)24GBRTX 4090、M3
5.1.2 实测部署案例

案例1:笔记本电脑部署

# 环境准备 pip install torch transformers accelerate # 模型加载 from transformers import AutoModelForCausalLM, AutoTokenizer import torch model_id ="Qwen/Qwen3.5-9B-Instruct" model = AutoModelForCausalLM.from_pretrained( model_id, torch_dtype=torch.float16, device_map="auto") tokenizer = AutoTokenizer.from_pretrained(model_id)# 推理 inputs = tokenizer("你好,请介绍一下Qwen3.5-9B模型", return_tensors="pt") outputs = model.generate( **inputs, max_new_tokens=512, temperature=0.7, do_sample=True ) print(tokenizer.decode(outputs[0], skip_special_tokens=True))

案例2:云端GPU部署

# Docker部署docker run --gpus all -p8080:80 \-v ~/.cache/huggingface:/root/.cache/huggingface \ qwen-webui \ --model-path /models/Qwen3.5-9B-Instruct \--port8080

5.2 应用场景详解

场景1:边缘设备AI助手

适用模型:Qwen3.5-0.8B & 2B

典型应用

  • 手机端视频摘要(最长60秒,8 FPS)
  • 移动端UI导航(像素级理解)
  • 嵌入式设备对话助手

优势

  • ✅ 极低延迟(<100ms)
  • ✅ 电池友好
  • ✅ 可离线运行
场景2:轻量级Agent

适用模型:Qwen3.5-4B

典型应用

  • 多轮对话(262K上下文)
  • 复杂文档解析
  • 代码辅助工具
  • 图像理解(UI元素识别、物体计数)

优势

  • ✅ 大上下文窗口
  • ✅ 原生多模态
  • ✅ 单GPU流畅运行
场景3:多功能Agent

适用模型:Qwen3.5-9B

典型应用

  • 企业级Agent(本地部署,免云成本)
  • 代码重构(400K行代码一次性喂入1M上下文)
  • 数学推理(STEM任务)
  • 实时视频分析

优势

  • ✅ 强大推理能力
  • ✅ 全面的多模态理解
  • ✅ 高性价比(vs GPT-4/Claude-4)

六、开源许可:Apache 2.0的商业友好

6.1 许可证详解

Qwen3.5系列采用Apache 2.0许可证,这是最宽松的开源许可证之一。

6.1.1 许可证核心条款
Apache License Version 2.0, January 2004 http://www.apache.org/licenses/ TERMS AND CONDITIONS FOR USE, REPRODUCTION, AND DISTRIBUTION 1. 定义 2. 许可授予 3. 条件 4. 再许可 5. 商标使用 6. 免责声明 7. 责任限制 8. 分发 9. 适用法律 
6.1.2 商业使用优势

✅ 允许商业使用(免版税)

  • 可以将模型嵌入到商业产品
  • 无需支付版税或授权费
  • 避免了"厂商锁定"(Vendor Lock-in)

✅ 允许修改

  • 可以按需定制模型
  • 可以进行指令微调(SFT)
  • 可以应用强化学习(RLHF)

✅ 允许分发

  • 可以将模型打包到本地优先AI应用
  • 可以在企业内部部署
  • 可以作为API服务提供

✅ 避免"厂商锁定"

  • 不绑定特定API
  • 不绑定特定云平台
  • 不绑定特定硬件

6.2 生态影响

6.2.1 开发者反响

GitHub星标

  • Qwen3.5系列在Hugging Face上的星标数:50,000+
  • 模型下载量:1,000,000+

社区评价

“Qwen3.5-9B和GPT OSS 120b一样好,但只有1/13大小!”
—— Karan Dhir, Kargul Studio
“0.8B和2B可以手机跑!4B作为强大多模态基础是移动端开发者的游戏改变者!”
—— Hugging Face开发者Xenova
“9B模型可以在我M1 MacBook Air上免费本地运行!”
—— 开发者Karan
6.2.2 企业级应用

Software Engineering

  • 本地代码智能,无需云API
  • Repository-wide Refactoring(40万行代码一次性喂入1M上下文)

Operations & IT

  • 自动化多步骤系统设置和文件管理
  • 本地部署,数据不出内网

Product & UX

  • 本地多模态推理直接集成到应用
  • 像素级UI理解,自动化表单填写

Data & Analytics

  • 从复杂视觉报告中提取结构化数据
  • 高保真OCR和结构化数据提取

6.3 Base模型 vs Instruct模型

Qwen3.5系列同时发布了BaseInstruct两个版本:

版本用途适用场景
Base模型基础预训练模型继续预训练、指令微调、RLHF
Instruct模型指令优化模型直接使用、Agent应用、对话

Base模型的价值

  • ✅ 提供"空白板"(Blank Slate)
  • 未被RLHF或SFT数据偏向
  • 适合企业定制和特定任务微调

七、结论:小模型超越大模型是必然趋势

7.1 核心观点

Qwen3.5-9B的突破,标志着AI发展的一个重要转折点:

“小模型超越大模型不是偶然,而是必然趋势。”

这背后的技术逻辑是:

  1. 混合效率架构解决了"内存墙"问题
  2. 原生多模态避免了"后接编码器"的开销
  3. 智能训练策略让模型学到了"精简但强大"的表示

7.2 行业意义

7.2.1 "Agentic Realignment"时代

AI领域正进入**“Agentic Realignment”(Agent重新对齐)时代**:

  • 我们已经超越了简单聊天机器人
  • 目标是自主Agent——能够"思考"、“看见”、“行动”
  • 使用万亿参数模型进行Agent循环成本极高
  • 本地Qwen3.5-9B可以以极低成本完成同样的任务
7.2.2 本地优先AI的普及

通过强化学习(RL)跨越百万Agent环境,阿里为这些小模型赋予了"人类对齐的判断":

  • 0.8B模型可以在智能手机上运行
  • 4B模型可以驱动编码终端
  • 9B模型可以处理复杂的多步骤任务

这实际上是"Agent能力的民主化"。

7.2.3 边缘部署与成本优化

从Chatbot到Agent的转型

  • 软件工程:本地代码智能,无需云API
  • Repository-wide Refactoring:40万行代码一次性喂入1M上下文
  • Operations & IT:自动化多步骤系统设置和文件管理
  • Product & UX:本地多模态推理直接集成到应用

7.3 技术对比总结

维度Qwen3.5-9Bgpt-oss-120B优势方
参数量9B~120BQwen(1/13)
推理能力81.780.1Qwen(+1.6)
视觉理解70.1-Qwen(全面领先)
文档理解87.778.2Qwen(+9.5)
数学能力83.2-Qwen(表现优异)
硬件需求单GPU多GPUQwen(低门槛)
部署成本Qwen(高性价比)
开源许可Apache 2.0未知Qwen(商业友好)

八、踩坑记录

⚠️ 坑1:混淆"OpenAI的开源"与"GPT-oss-120B"

问题:部分媒体将"OpenAI的开源gpt-oss-120B"误写为"gpt-oss-120b"

教训

  • 在引用基准数据时,务必核对原始来源
  • 避免误导读者

正确写法

  • ✅ “gpt-oss-120b”(官方命名)
  • ✅ “OpenAI的开源模型gpt-oss-120b”

⚠️ 坑2:忽视模型适用场景

问题:部分评测将所有任务混在一起,误导用户

教训

  • 0.8B & 2B适合边缘设备,不适合通用推理
  • 4B适合轻量级Agent,不适合复杂数学推理
  • 9B适合多功能Agent,但不适合手机部署

建议

  • 根据实际应用场景选择合适的模型
  • 避免盲目追求"最大"

⚠️ 坑3:忽视Base模型的价值

问题:部分开发者只关注Instruct模型,忽视Base模型

教训

  • Base模型提供"空白板",适合定制化
  • Instruct模型已经过优化,可能不适合特定任务

建议

  • 企业用户优先考虑Base模型
  • 特定任务可以基于Base模型微调

✅ 案例:开发者实测

实测数据

“Qwen3.5-9B在我的RTX 4090上,推理速度达到80 tokens/秒,延迟低于100ms,完全可以满足实时对话需求。”
—— Karan Dhir, Kargul Studio
“0.8B和2B可以在我的Android手机上流畅运行,这改变了移动端AI的游戏规则!”
—— Hugging Face开发者Xenova

九、实战代码示例

9.1 本地部署

# requirements.txt torch>=2.0.0 transformers>=4.30.0 accelerate>=0.20.0
# deploy.pyimport torch from transformers import( AutoModelForCausalLM, AutoTokenizer, GenerationConfig )from accelerate import infer_auto_device # 模型ID MODEL_ID ="Qwen/Qwen3.5-9B-Instruct"# 加载模型 model = AutoModelForCausalLM.from_pretrained( MODEL_ID, torch_dtype=torch.float16, device_map=infer_auto_device()) tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)# 配置生成参数 generation_config = GenerationConfig.from_model_config(model.config) generation_config.max_new_tokens =512 generation_config.temperature =0.7 generation_config.top_p =0.9 generation_config.do_sample =True generation_config.pad_token_id = tokenizer.eos_token_id # 推理函数defgenerate_response(prompt:str)->str: inputs = tokenizer(prompt, return_tensors="pt").to(model.device)with torch.no_grad(): outputs = model.generate( inputs, generation_config=generation_config ) response = tokenizer.decode(outputs[0], skip_special_tokens=True)return response # 测试if __name__ =="__main__": prompt ="请介绍一下Qwen3.5-9B模型的技术特点" response = generate_response(prompt)print(f"用户:{prompt}\n模型:{response}")

9.2 API服务封装

# api_server.pyfrom fastapi import FastAPI from pydantic import BaseModel from deploy import generate_response, model, tokenizer app = FastAPI()classRequest(BaseModel): prompt:str max_tokens:int=512 temperature:[email protected]("/generate")asyncdefgenerate(request: Request): response = generate_response(request.prompt)return{"response": response}if __name__ =="__main__":import uvicorn uvicorn.run(app, host="0.0.0.0", port=8080)
# 启动服务 python api_server.py # 测试APIcurl-X POST "http://localhost:8080/generate"\-H"Content-Type: application/json"\-d'{"prompt": "你好,Qwen3.5"}'

9.3 多模态推理

# multimodal.pyimport torch from transformers import AutoModelForVision2Seq, AutoProcessor MODEL_ID ="Qwen/Qwen3.5-4B-Vision"# 加载模型 model = AutoModelForVision2Seq.from_pretrained( MODEL_ID, torch_dtype=torch.float16 ) processor = AutoProcessor.from_pretrained(MODEL_ID)defprocess_multimodal(text:str, image_path:str):from PIL import Image # 加载图像 image = Image.open(image_path).convert("RGB")# 处理输入 inputs = processor(text=text, images=image, return_tensors="pt")# 推理with torch.no_grad(): outputs = model.generate(**inputs)# 解码 response = processor.decode(outputs[0])return response 

十、引用与参考资料

10.1 数据来源

本文数据来源:

10.2 官方资源

10.3 社区资源


十一、总结

Qwen3.5-9B的突破,标志着AI发展的一个重要转折点:

11.1 核心亮点

  1. 参数效率:9B参数超越13.5倍大的模型
  2. 技术架构:混合效率+原生多模态
  3. 基准测试:在5大测试中全面超越对标
  4. 硬件友好:单GPU即可流畅运行
  5. 开源许可:Apache 2.0,商业友好
  6. 生态丰富:Base + Instruct双重选择

11.2 适用场景

场景推荐模型理由
边缘设备Qwen3.5-0.8B/2B电池友好、低延迟
轻量级AgentQwen3.5-4B大上下文、原声多模态
多功能AgentQwen3.5-9B强大推理、全面多模态
企业定制Qwen3.5-9B-Base空白板、易于微调

11.3 给读者的建议

给开发者的建议

  1. 根据实际应用场景选择合适的模型
  2. 优先考虑Base模型进行定制化
  3. 充分利用Apache 2.0许可证的商业友好性

给企业的建议

  1. 评估本地部署的成本优势
  2. 考虑Qwen3.5系列作为企业AI基础设施
  3. 结合实际业务场景选择合适的模型

给研究者的建议

  1. 深入研究混合效率架构
  2. 探索原生多模态的训练方法
  3. 参与开源社区,贡献代码

想要深入学习Qwen3.5系列的技术细节?

👉 访问Hugging Face模型卡片,查看完整的技术文档

👉 下载模型权重,尝试本地部署

👉 参与Qwen Discord社区,与其他开发者交流


觉得这篇文章有帮助?

👉 分享这篇文章,帮助更多开发者了解国产AI的最新进展

Read more

【Coze - AI Agent 开发平台】-- 你真的了解 Coze 吗

【Coze - AI Agent 开发平台】-- 你真的了解 Coze 吗

🔭 个人主页:散峰而望 《C语言:从基础到进阶》《编程工具的下载和使用》《C语言刷题》《算法竞赛从入门到获奖》《人工智能AI学习》《AI Agent》 愿为出海月,不做归山云 🎬博主简介 文章目录 * 前言 * 1. 什么是 coze * 2. 为什么要学会使用 Coze * 3. 玩转 Coze 都能干什么 * 4. 扣子产品生态 * 4.1 扣子产品矩阵 * 4.2 注册 Coze * 4.2.1 访问扣子官网 * 4.2.2 选择注册方式 * 4.2.3 完善个人信息 * 4.3 扣子开发平台 * 4.

By Ne0inhk

2026最新 OpenClaw 手机端部署与实战:旧手机秒变 AI 智能终端(Android/iOS 双平台全覆盖)

作为喜欢新鲜技术、热爱 AI 开发的 ZEEKLOG 博主,我必须说:OpenClaw 是2026年最值得在手机上跑一遍的开源 AI Agent。它不只是聊天,而是能真·执行任务的本地 AI 助手,手机端更是把“随时随地自动化”拉满。本文将详细拆解 OpenClaw 手机端的应用场景、部署步骤、实战玩法及避坑技巧,全程干货,读者一看就会、一跑就成。 一、OpenClaw 是什么?为什么要在手机上跑? OpenClaw 是2026年 GitHub 爆火的开源自托管 AI 执行网关,前身是 Clawdbot / Moltbot,主打“一句话让 AI 帮你完成真实操作”,核心能力包括发消息、整理文件、控制设备、自动化任务等,区别于普通对话式 AI,

By Ne0inhk

让 AI 记住一切:OpenClaw 自我进化实录

> 从 70% Token 自动压缩到"每日三省吾身",打造一个真正会学习的 AI 助手 --- ## 背景 用 OpenClaw 一段时间后,发现两个痛点: 1. **会话太长,Token 爆满** — 聊着聊着就忘了前面的内容 2. **每次重启都是白纸** — 知识没有沉淀,重复问同样的问题 能不能让 AI 自己管理记忆,像人一样"三省吾身"? 折腾了一天,终于搞定了。 --- ## 一、Token 自动压缩:70% 就动手 ### 问题 OpenClaw 默认的 auto-compaction 是在 context window 接近满载时才触发。但这时候已经太晚了—

By Ne0inhk
OpenClaw + Antigravity 本地 AI 配置完整教程

OpenClaw + Antigravity 本地 AI 配置完整教程

OpenClaw + Antigravity 本地 AI 配置完整教程 什么是 OpenClaw? OpenClaw 是一个开源的 AI 助手框架,包括: * Clawdbot:核心 AI 助手引擎 * ClawHub:技能市场,提供各种扩展功能 * 多平台支持:支持飞书、Telegram、Discord、WhatsApp 等多个平台 什么是 Antigravity Manager? Antigravity Manager 是一个强大的 AI API 代理工具,可以让你通过本地服务访问多个 AI 模型(Claude、Gemini、GPT 等),统一管理 API 密钥和请求。 项目地址:https://github.com/lbjlaq/Antigravity-Manager

By Ne0inhk