Google 发布 Gemini Embedding 2 及 MuleRun 自进化 AI 助手
Google 发布多模态嵌入模型 Gemini Embedding 2,支持文本、图片、视频、音频、PDF 五种模态统一向量空间及交错输入技术;国内 MuleRun 推出主打'自进化'的个人 AI 助手,提供 Super Agent 和 Computer 两种模式,强调低门槛与云端自动化能力。两者分别代表基础设施升级与平民化应用趋势。
博客作者
AI算法工程师
307
已发布文章
13K
博客获赞
628K
博客浏览
第 6 页
Google 发布多模态嵌入模型 Gemini Embedding 2,支持文本、图片、视频、音频、PDF 五种模态统一向量空间及交错输入技术;国内 MuleRun 推出主打'自进化'的个人 AI 助手,提供 Super Agent 和 Computer 两种模式,强调低门槛与云端自动化能力。两者分别代表基础设施升级与平民化应用趋势。
综述了 2025 年五种智能算法在无人机三维路径规划中的应用。涵盖人工蜂鸟算法(AHA)、多目标海星优化算法(MOSFOA)、雪雁算法(SGA)、人工旅鼠算法(ALA)及改进粒子群优化算法(PSO)。分析了各算法原理、目标函数设计及实验效果,对比了不同场景下的选型建议。文章提供 Matlab 代码实现思路,旨在为复杂环境下的无人机巡检提供理论支撑与技术参考。
介绍前端静态站点生成(SSG)的优势,包括性能、SEO 和安全性。对比了传统静态 HTML 与使用 Next.js、Astro、Gatsby 等框架的 SSG 实现。阐述了构建时数据获取、增量静态再生(ISR)及客户端交互等技术点,强调 SSG 是现代高性能网站的重要架构选择。

介绍宇树 Go2 机器人基于 Isaac Gym 和 Isaac Lab 的强化学习开发流程。涵盖环境配置(Conda、CUDA、PyTorch)、模型训练(PPO 算法)、效果验证及 sim2real 实物部署步骤。提供关键命令参数与代码示例,解决显存不足、导入错误等常见问题,帮助开发者快速实现从仿真到实物的 RL 落地。

系统阐述了 Web 应用开发的全栈知识体系。内容包括基础架构、前端技术(HTML/CSS/JS 及主流框架)、后端开发(Node.js/Python/Java/Ruby)、数据库选型(SQL/NoSQL)、API 设计(RESTful/GraphQL)、测试策略及部署运维(云原生/Docker/CI/CD)。旨在为开发者提供从入门到实战的完整技术指南,助力构…

Qwen-Multiple-Angles 是一款针对 Qwen-Image-Edit-2511 模型的 LoRA 插件,支持通过提示词或可视化控件精确控制图像生成的 96 种相机角度。该工具包含水平、垂直及焦距变化,特别优化了低角度仰拍效果。适用于角色设计、产品展示及视频前处理。支持 ComfyUI 和 WebUI 模式,需配合参考图使用,提示词中需添加<s…

深入探讨 AI 数据标注平台的选型标准与技术架构。内容涵盖 SaaS 与私有化部署对比、WebSocket 并发处理、标注格式中间态设计。通过 Python 示例演示智能预标注控制器构建,结合 SAM 模型优化计算机视觉标注,利用大语言模型辅助自然语言处理标注。此外还涉及质控流程、数据版本管理及安全策略,旨在为团队提供构建高效数据生产流水线的技术参考。
介绍 Stable Diffusion 3.5 模型的特性及版本选择,提供基于云端算力平台的零代码部署方案。内容涵盖环境准备、WebUI 操作、关键参数(CFG、采样器、分辨率)详解以及提示词编写技巧。通过按小时计费模式,大幅降低硬件成本,适合自由职业者快速验证 AI 绘画需求并生成高质量商用图像。

介绍 Stable Diffusion WebUI 整合包的部署与使用方法。无需手动配置 Python 环境,解压即可运行。涵盖模型存放路径、常用功能(txt2img/img2img)、插件管理(ControlNet)及常见问题排查。适合希望快速体验 AI 绘图且避免环境配置麻烦的用户。
VTJ.PRO 是一款面向 Vue3 的开源 AI 低代码引擎,旨在解决传统低代码平台代码不可控(黑盒)的问题。它通过双向代码转换实现可视化设计与手写源码的自由切换,并集成 AI 功能如设计稿转码、自然语言生成及智能修复。实测数据显示其能显著缩短开发周期、降低人力成本并提升页面迭代效率,支持国际化、权限控制等企业级特性,致力于在提升开发效率的同时保障开发者的…

在 OpenHarmony 环境下使用 Flutter 三方库 flutter_dropzone 实现文件拖拽功能的适配方案。核心内容包括基于原生协议的事件监听机制、大文件的分块流式读取以避免内存溢出、以及在不同屏幕模式下的坐标换算与权限处理。通过 DropzoneView 组件封装回调,开发者可实现跨窗口资源流转,提升桌面及大屏应用的交互体验。

Python 在 AI 模型开发与调优中的实战应用。内容涵盖核心概念解析、技术原理深入(包括基础实现、TensorFlow/PyTorch 进阶实现)、数据处理流程及模型评估方法。通过房价预测等案例分析,展示了从数据准备、特征工程到模型训练优化的完整流程。同时提供了环境搭建、项目结构规范及最佳实践建议,并针对常见问题如模型选择、数据不平衡处理进行了解答,最后…

对比了高级与标准两类 AI 编程模型,涵盖 Claude、GPT、Gemini 及 Grok 等主流选项。根据日常使用、复杂任务、长文档处理、性价比及编程开发等不同场景提供推荐方案。针对全栈开发(Vue3 + Spring Boot),给出了首选组合与统一方案建议,并总结了追求质量、平衡成本及零成本开发的优先级策略。

解析了微软 Copilot Cowork 从代码补全到智能协作的转变,阐述了 AI Agent 的感知、规划与执行闭环。通过 Kotlin 结合大模型 API,演示了如何构建简易 AI Agent。重点介绍了 Agent 的核心逻辑及代码实现细节,帮助开发者理解并实践 AI 应用开发。
介绍如何在保留现有 AI 服务核心逻辑的前提下,通过在企业微信后台配置消息回调 URL,并编写一个适配层(使用 FastAPI 和 wechatpy),将 AI 小助手变成企业微信群聊中的@机器人。文章涵盖了后端代码实现、Nginx 配置、Docker Compose 环境变量设置以及故障排查指南,实现了低成本、易上手的群聊机器人集成方案。

EMNLP 2025 论文解读。提出 AuthChain 攻击方案,通过单条有毒文档影响 RAG 系统决策。利用大模型抽取意图和实体关系,生成权威认证信息和证据链内容,增强检索可见性和逻辑闭环。实验表明在 NQ、MS-MARCO 等数据集上,相比 PoisonedRAG 等基线,AuthChain 具有更高的攻击成功率和检索成功率,能有效克服 LLM 内部知…

飞书 OpenClaw 机器人交互中出现的 HTTP 401 Invalid Authentication 报错。该错误表明身份认证无效,飞书服务端鉴权校验失败。问题复现于单聊及群聊场景,导致机器人无法返回正常业务响应。根本原因在于机器人身份凭证无效或鉴权逻辑未通过,需检查相关配置以修复全链路鉴权。

研究了国科安芯 AS32S601 系列抗辐照 MCU 在高空长航时无人机(HALE UAV)热管理系统中的应用与可靠性。基于重离子、质子、总剂量及脉冲激光试验数据,分析了 MCU 在单粒子锁定、翻转及功能中断下的响应特征。结果表明该 MCU 具备 150 krad(Si) 总剂量耐受能力,SEL 阈值高于 37.9 MeV·cm²/mg,SEFI 阈值约 6…
介绍 Moji 2.0 小智 AI 桌面机器人的复刻方案。硬件采用乐鑫 ESP32-C5 主控,配备 1.5 寸高清圆屏及 ES8311 音频芯片,支持 5G Wi-Fi 6。软件基于 xiaozhi-esp32 协议,接入 DeepSeek、Qwen 等大模型,实现语音对话、表情交互及声纹识别。文章涵盖技术架构、硬件组装注意事项、物料清单及原理图资源,适合…
介绍如何利用腾讯 HunyuanOCR 模型与飞书机器人结合,实现群聊图片的自动文字识别与结构化提取。传统 OCR 方案在处理复杂文档时存在精度低、流程繁琐的问题,而 HunyuanOCR 凭借端到端建模架构在单卡 4090D 上即可部署,支持多语言及字段抽取。通过 Flask 搭建中间服务,接收飞书 Webhook 事件并调用 OCR API,可将非结构化…