
大模型前沿:8 篇必读论文
涵盖扩散模型推理时扩展、机器写作框架 OmniThink、增强型 tokenization ViT 架构、大推理模型 LRM 综述、视频物理原理理解基准 Physics-IQ、视觉 - 语言 - 动作模型 FAST 动作 tokenizer、人像重光照 SynthLight 以及阿里 AnyStory 个性化主体生成方法等八项前沿技术进展。
博客作者
保持安静
319
已发布文章
6.6K
博客获赞
406K
博客浏览
第 15 页

涵盖扩散模型推理时扩展、机器写作框架 OmniThink、增强型 tokenization ViT 架构、大推理模型 LRM 综述、视频物理原理理解基准 Physics-IQ、视觉 - 语言 - 动作模型 FAST 动作 tokenizer、人像重光照 SynthLight 以及阿里 AnyStory 个性化主体生成方法等八项前沿技术进展。
讲解 Kotlin 协程在 Android 开发中的核心知识点。涵盖协程调度器 Dispatchers 的使用及线程切换方法;协程上下文 CoroutineContext 的元素组合与覆盖机制;四种启动模式 DEFAULT、LAZY、ATOMIC、UNDISPATCHED 的行为差异;协程作用域 CoroutineScope 及其协同与监督模式下的异常传播规…

使用 Stable Diffusion 结合 ControlNet 插件生成个性化姓氏头像的技术流程。主要步骤包括准备姓氏图片、选择合适模型、复制参考提示词、配置 ControlNet 的 Tile 和 Lineart 模块以增强细节与轮廓,并通过调整权重参数优化生成效果。该方案适用于希望利用 AI 工具进行图像创作的用户。

本地知识库利用检索增强生成(RAG)技术弥补大模型数据滞后和幻觉缺陷。通过将非结构化文档转换为向量存入数据库,实现基于语义的精准检索。使用时将用户问题向量化并匹配相关资料,构建提示词输入大模型,从而在降低训练成本的同时提升回答准确性与时效性。

Android 开发进阶需深入底层源码。涵盖 MMKV、ARouter、OkHttp 等常用库原理,以及 Binder、Handler、WMS 等 Framework 核心机制。通过梳理关键知识点,帮助开发者理解系统通信、线程调度及窗口管理,提升排查问题能力与架构设计水平。内容涉及 IPC 机制、视图系统、内存管理及插件化技术等,旨在构建系统的知识体系。

Android 开发工程师面试涉及 Java 基础、集合、多线程、JVM、Android 组件、UI 绘制、性能优化、IPC、系统设计及 Kotlin 等多个领域。梳理了高频面试题,涵盖 Activity 生命周期、Handler 机制、内存泄漏处理、网络优化等关键技术点,并提供数据结构与设计模式相关考点,帮助开发者系统复习,提升面试通过率。

Python 爬虫的基础概念、工作原理及核心实现步骤。内容涵盖浏览器与爬虫的区别、requests 库的安装与基本用法、Response 对象属性解析、请求头设置及异常处理。同时强调了 Robots 协议的重要性及爬取过程中的伦理规范,为初学者提供了完整的入门指导与实践建议。

Python 数据分析主要包含读写、处理计算、分析建模和可视化四个步骤。基于 Python 生态的核心工具库,包括用于读写的 Pandas 和 NumPy,用于建模的 Scikit-learn 和 Statsmodels,以及可视化的 Matplotlib。通过实际代码示例,展示了如何加载数据、清洗特征、构建机器学习模型并生成图表,为初学者提供完整的技术路径…

详细解析了 Matplotlib 中的五种核心坐标系统:显示空间、Figure 空间、数据空间、Axes 空间及混合空间。通过对比各系统的单位、基准对象及应用场景,并结合代码示例说明了如何使用 transData、transAxes 等属性进行坐标转换。文章重点阐述了在不同缩放与布局需求下选择合适坐标系的策略,提供了混合坐标系的构建方法及常见问题的解决方案,…

华为 eNSP 网络模拟器的完整安装流程。内容涵盖安装前的系统环境准备,包括 VirtualBox、WinPcap 和 Wireshark 三个关键依赖程序的配置步骤。正文按照严格的先后顺序指导用户完成各组件的安装,并提供了 eNSP 主程序的部署方法。此外,文章还包含了安装后的功能验证步骤以及常见问题的排查方案,帮助用户快速搭建可用的网络仿真环境,适用于网…

生成式 AI 大模型中的提示词工程实践。内容涵盖提示的基本要素如指令、上下文、输入数据和输出指示。深入探讨了零样本提示、小样本提示、思维链 (CoT)、自洽性、思维树 (ToT)、检索增强生成 (RAG)、ART 及 ReAct 等核心技术及其应用场景。此外,文章还分析了提示注入、提示泄露及模型偏差等安全问题,并提供了相应的缓解策略。通过对比不同技术的优缺点…

基于《出版业人工智能大语言模型应用研究报告》,分析了人工智能大语言模型在出版业的应用现状、存在问题及未来趋势。国内出版业已在编辑校对、有声制作等环节探索应用,但缺乏断层式领先的模型;国外在亚马逊等平台已有大量 AI 作者书籍。当前面临版权纠纷、内容质量、数据安全等六大挑战。建议通过完善制度、升级模型、构建审核机制等措施应对。未来趋势包括专用模型出现、成本轻量…

探讨了 Agentic RAG 技术的兴起及其对传统 RAG 的改进。文章首先介绍了 RAG 的基本原理及其局限性,随后阐述了 AI 智能体的核心组件与 ReAct 框架。重点解析了 Agentic RAG 的定义、工作原理及单智能体与多智能体架构。通过对比普通 RAG 与智能体 RAG 在工具使用、多步骤检索等方面的差异,展示了后者在灵活性和健壮性上的优势…

ChatDev 是一个基于多智能体对话协同完成软件开发任务的框架,将流程抽象为设计、编程、测试、文档四个环节。通过 CEO、CTO、程序员等角色智能体的对话协作,结合记忆流、自我反思及版本控制机制,实现了从需求分析到代码生成的自动化。实测显示在简单任务下代码执行成功率达 86%,平均耗时 7 分钟,展现了 AI 辅助编程的低成本与高效率潜力。

如何在本地环境中利用 Ollama、Docker 和 Dify 搭建大模型知识库。内容涵盖环境准备、Ollama 安装与路径配置、Dify 容器化部署、模型连接设置以及知识库创建流程。通过该方案,用户可实现数据的私有化存储与安全问答,避免数据泄露风险,同时降低对云端 API 的依赖。

梳理了检索增强生成(RAG)技术的核心概念、工作流程及其与大模型微调的对比分析。文章详细阐述了 RAG 在解决大模型幻觉、知识更新滞后及领域专业性方面的优势,同时指出了检索精确率、召回率、Prompt 构造及知识库维护等方面的局限性。针对这些问题,提出了包括引入 Rerank 模型、混合检索、上下文压缩及自动化维护在内的性能提升方案。此外,还介绍了 Lang…

基于 AgentFabric 框架微调 Qwen-7B-Chat 模型以实现交互式智能体应用的技术方案。针对小模型在工具调用方面能力较弱的问题,文章详细阐述了环境搭建、数据集格式转换(从 MS-Agent 到 AgentFabric)、LoRA 微调流程及模型部署步骤。通过自定义 Prompt 格式转换脚本和混合真实调用数据,显著提升了模型在 AgentFa…

一种利用大模型知识图谱构建器在 5 分钟内将非结构化文本转化为动态知识图谱的方法。该工具基于 Neo4j 生态系统,支持 PDF、网页和视频等多种数据源。通过自动识别实体和关系,构建图谱后可进行可视化探索及自然语言对话。文章详细说明了环境准备、图谱构建流程、RAG 代理工作机制以及本地部署的安全考量,展示了如何利用 GraphRAG 技术加速信息处理和发现潜…

深入解析大模型的核心定义、与小模型的区别及分类体系。涵盖语言、视觉及多模态大模型,重点阐述基于 Transformer 的架构原理。详细介绍预训练、微调、思维链(CoT)及指令学习等关键技术,并探讨行业应用层级与未来发展趋势,为技术人员提供系统化的大模型知识框架。

Meta 发布的 Llama 3.1 模型及其本地部署方案。内容涵盖 Ollama 工具的安装配置、模型拉取与命令行交互、基于 Docker 部署 OpenWebUI 图形化界面以及常见问题的优化策略。通过该指南,开发者可快速搭建私有化大语言模型环境,实现离线推理与数据安全。