
LLM 模型入门与主流开源资源盘点
LLM 是基于 Transformer 架构的大型语言模型,具备强大的自然语言理解与生成能力。文章介绍了其架构类型、参数规模、预训练与微调范式及应用场景,并整理了国内外主流开源模型列表供参考。
博客作者
消息队列专家
367
已发布文章
13K
博客获赞
876K
博客浏览
第 17 页

LLM 是基于 Transformer 架构的大型语言模型,具备强大的自然语言理解与生成能力。文章介绍了其架构类型、参数规模、预训练与微调范式及应用场景,并整理了国内外主流开源模型列表供参考。

企业面临海量文档检索难题,传统搜索无法满足深层次理解需求。RAG(检索增强生成)方案结合通用大模型与企业私有数据,通过索引建立、检索与生成流程解决专业领域问答问题。RAG 分为 Naive、Advanced 及 Modular 三种形态。建设路径分三个阶段:可运行、提效果、高扩展。实施中需应对数据质量差、向量化信息缺失及语义搜索不准确等挑战。构建企业级 RA…

Anthropic 推出 MCP(Model Context Protocol)协议,旨在标准化 AI Agent 与外部数据源及工具的通信。Claude 3.5 Sonnet 现支持直接连接 GitHub 和本地文件,通过 MCP 实现无需定制代码的数据隔离解决方案。文章介绍了 MCP 的客户端 - 服务器架构、核心功能如 Prompts 和 Tools,…

漏洞挖掘可类比为迷宫游戏,主要包含枚举程序入口点、思考可能出现的不安全状态及设法到达不安全状态三个步骤。漏洞分为通用型和上下文型两类。挖掘者需掌握程序正向开发技术、攻防一体理念、工具使用能力及对目标应用的深入理解。分析方法涵盖程序用途、执行条件、通信分析及代码二进制分析。此外,还需关注漏洞的复杂性与团队协作模式,通过不断尝试与实践提升挖掘能力。

DeepSeek R1 是一款开源 AI 语言模型,介绍如何通过 Ollama 工具在本地计算机上安装和运行该模型。内容包括环境准备、命令行操作指令、硬件资源需求分析以及本地部署在隐私保护、离线访问和未来扩展性方面的优势。通过本地运行,用户可避免数据上传至云端,实现对数据的完全控制。

Android 开发面试涵盖 Activity 生命周期、Service 启动模式、Broadcast 注册方式、Context 使用场景、跨进程通信、Handler 消息机制及 View 绘制流程等核心内容。 70 道常见面试题并提供详细解析,包括标准答案与原理说明,帮助开发者系统复习关键知识点,规避面试陷阱,提升技术面通过率。重点涉及内存管理、线程切换、…

Android 音视频开发涉及图像、音频、视频的基础知识及采集、渲染、处理、传输等全流程。深入解析 H264 编码原理,介绍 Android 硬解码流程、OpenGL ES 渲染技术、FFmpeg 库的编译与集成,以及直播系统中的聊天架构实践。旨在帮助开发者构建系统的音视频知识体系,从理论到实战掌握核心技能。

Android 开发中掌握底层原理至关重要。深入解析 Handler 线程间通信机制及内存泄漏问题,阐述 Binder 进程间通信架构与 AIDL 应用。同时涵盖系统启动流程、AMS/WMS/SurfaceFlinger 等核心服务源码逻辑,以及 PKMS、InputManager 和 DisplayManager 的关键功能实现,为开发者构建稳固的 And…

基于数百次实验,深入分析了 LoRA 和 QLoRA 微调语言大模型的技术细节。研究发现 QLoRA 虽增加训练时间但能显著节省内存,适合在小显存设备上运行。优化器方面,SGD 与 AdamW 在 LoRA 场景下内存节省差异不大,性能相当。多次迭代数据集反而导致性能下降。关键发现在于 LoRA 超参数调优:增大秩 r 需配合更大的 alpha 值(建议 a…

系统介绍了 ChatGPT 提示词工程的基础知识与实用技巧。内容涵盖提示词的结构化组成(角色、任务、要求、提示)、核心术语解析、多种提示技巧(如开放式、指令式、角色扮演等)的应用场景、写作风格的控制方法。文章特别强调了安全合规的重要性,指出越狱技巧的风险与危害,并提供了避免抄袭的伦理建议与工具方法。旨在帮助用户构建精准指令,高效利用 AI 生成高质量内容,同…

阿里达摩院大模型算法岗一面涉及大模型基础流程(预训练、SFT、RLHF)、幻觉缓解策略、思维链推理机制及多项编程算法题(堆排序、滑动窗口、DFS)。内容涵盖技术原理详解与代码实现分析,旨在帮助求职者系统准备大模型相关岗位面试。

探讨大模型开发中的数据标注环节及其合规要求。数据标注是训练高质量生成式人工智能的基础,涉及监督学习与自监督学习的平衡。文章分析了欧盟人工智能法案、GDPR 及中国生成式人工智能服务管理暂行办法对数据标注的具体规定,包括数据质量、偏见控制、准确性验证等。同时提供了合规落地的实施建议,涵盖标注规则制定、人员培训、第三方数据集管理及安全审计流程,旨在帮助企业在满足…

检索增强生成(RAG)通过结合信息检索技术与语言模型,提升大型语言模型在知识密集型任务中的准确性与可靠性。系统主要由语言模型、外部知识库及检索机制构成。构建流程包括模型选择、知识库向量化、检索策略设计及整合训练。基础原理、基于 PyTorch 的简化实现案例,并探讨了多模态融合、高效检索及伦理隐私等未来发展方向。

向量数据库的核心概念、技术原理及主流选型。内容涵盖向量化的定义、相似性搜索机制、常用索引算法(HNSW/IVF)以及五大主流工具(Chroma、Pinecone、Weaviate、Faiss、Qdrant)的对比。文章还提供了 Python 代码实战示例,展示了如何使用 ChromaDB 进行数据入库与检索,并总结了生产环境下的最佳实践与安全建议。向量数据库…

OpenAI o1 代表大模型在逻辑推理能力上的重大突破,相比 GPT-4o 更注重基座模型的认知深度而非多模态融合。文章分析了 o1 通过自动化思维链(CoT)和蒙特卡洛树搜索(MCTS)提升复杂问题解决能力的机制,探讨了预训练 Scaling Law 放缓的原因及逻辑数据合成的必要性。同时指出 o1 对 Agent 发展和软件工程范式的深远影响,强调未来…

在基于大模型的 Agent 应用中实现长期记忆的 8 种优化方法。涵盖了从简单的全量历史对话缓存、滑动窗口机制,到基于实体、知识图谱的记忆管理,以及摘要总结、缓冲区和 Token 限制策略,最后介绍了基于向量检索的高级记忆方案。每种方法均结合了具体应用场景(如客服、医疗、金融等)进行了分析,并提供了相应的 LangChain 代码示例,帮助开发者根据 Tok…

详细阐述了大模型的定义、核心特点及工作原理。内容涵盖庞大参数规模、深度学习架构、Transformer 机制、预训练与微调流程。分析了大模型在自然语言处理、计算机视觉、生物信息学、自动驾驶及金融等领域的广泛应用。同时探讨了大模型的优势,如强泛化能力和高性能,以及面临的挑战,包括高计算成本、数据依赖、可解释性差、幻觉与偏见等问题。最后介绍了量化、知识蒸馏等部署…

介绍基于 LoRA 技术对 BLIP-2 多模态大模型进行微调的完整流程。涵盖 BLIP-2 架构解析、数据集准备、LoRA 配置参数详解、训练循环实现及推理脚本编写。通过冻结预训练权重并仅训练低秩适配器,有效降低显存占用与计算成本,适用于图像描述生成与视觉问答任务。文章还补充了常见问题与优化建议,帮助开发者解决显存不足、训练不收敛等实际问题。

涵盖大模型面试中的 25 个核心问题,涉及 Transformer 架构原理、注意力机制计算细节、位置编码策略、归一化方法、微调技术(LoRA、RLHF)、推理加速(KV Cache)及显存优化等。内容聚焦于 Decoder-only 结构优势、RoPE 外推方案、混合精度训练差异及 PyTorch 张量操作等关键技术点,旨在帮助技术人员系统掌握大模型底层逻…

ChatGLM3-6B 是清华智谱开源的中英双语对话模型,支持函数调用与代码解释。该模型的本地与云端部署流程,涵盖 AutoDL 镜像使用、手动环境配置、Anaconda 虚拟环境管理及模型文件下载。内容包含 WebUI 启动方法、SSH 隧道配置、插件注册机制以及基于 OpenAI 兼容接口的 API 调用示例。此外,还总结了显存优化、推理加速及常见报错解…