
零数学公式:轻松理解大模型基本原理
文章通过零数学公式的方式解析大模型基本原理。首先阐述大模型本质为参数与代码,训练即对互联网数据的有损压缩。接着介绍神经网络基础,包括感知器、权重与阈值。核心部分详解 Transformer 架构,涵盖向量矩阵、Token 化、位置编码、自注意力机制及归一化流程。最后补充了训练与推理的区别,帮助读者建立对大模型工作机制的完整认知。
博客作者
宇宙探索者
363
已发布文章
18K
博客获赞
850K
博客浏览
第 17 页

文章通过零数学公式的方式解析大模型基本原理。首先阐述大模型本质为参数与代码,训练即对互联网数据的有损压缩。接着介绍神经网络基础,包括感知器、权重与阈值。核心部分详解 Transformer 架构,涵盖向量矩阵、Token 化、位置编码、自注意力机制及归一化流程。最后补充了训练与推理的区别,帮助读者建立对大模型工作机制的完整认知。

汇总了国内多家大模型公司的面试经历与结果,涵盖智元机器人、面壁科技、Minimax、阿里、百度等知名企业。文章详细记录了各公司的考察重点,包括 Transformer 架构、MHA 原理、分布式训练、LeetCode 算法题及工程落地能力。同时总结了行业现状,指出大模型岗位对模型、框架及底层知识的综合要求,并提供了针对基座算法与框架岗位的高频考点解析,如 K…

AI 产品经理负责设计和管理人工智能产品的开发与推广,需具备技术理解力与商业思维。文章涵盖 AI 产品分类(2B/2C、狭义/广义)、工作职责(需求分析、路线图制定、跨部门协作)、关键技能(技术知识、项目管理、数据分析)及常见痛点(技术限制、数据质量)。此外还探讨了职业成长路径、常用工具栈及未来趋势,旨在为从业者提供系统性的认知框架与实战参考。

详细解析了 Android 插件化技术的核心原理与实践路径。内容涵盖插件化技术的发展历程,从早期的静态代理到现代的容器化框架;深入探讨了代码加载、资源管理及四大组件生命周期管理等三大核心挑战;系统梳理了学习插件化所需的六大基础知识,包括 Binder 机制、打包流程、安装启动流程及 Dex 加载策略;并通过 DexClassLoader 代码示例展示了动态加…
通过分析 Android 源码深入探讨了主线程与 UI 线程的关系。在普通应用程序中,ActivityThread 的 main 方法启动后,Activity.attach 方法将当前线程赋值给 mUiThread,此时主线程即为 UI 线程。然而,在 SystemServer 进程中,虽然同样创建了 ActivityThread 对象,但其 attach…

详细讲解了 OpenCV 中 copyMakeBorder 函数的使用方法。主要内容包括边框处理在图像卷积中的必要性,五种常见边框类型(常数、复制、反射、环绕、透明)的原理与区别。提供了完整的 C++ 代码示例,演示了如何动态加载图像、设置边框大小、切换填充模式以及处理用户交互。此外,还分析了代码逻辑,探讨了在深度学习、图像拼接及特征提取等场景下的实际应用,…

OpenCV 中霍夫线变换的原理及实现。通过边缘检测预处理,利用极坐标系下的直线方程将图像空间映射到参数空间。文章对比了标准霍夫变换与概率霍夫变换的区别,并提供了完整的 C++ 代码示例,展示了如何使用 HoughLines 和 HoughLinesP 函数检测图像中的直线,以及结果可视化方法。

如何在本地部署 LLAMA3.1 8B 大模型并结合 Obsidian 构建 AI 知识管理系统。内容涵盖 Ollama 安装配置、环境变量设置、模型下载与运行、Copilot 插件集成及具体使用场景。文章详细说明了不同硬件条件下的运行表现,提供了 Windows 环境下的具体命令示例,并补充了显存优化、网络安全防护及常见故障排查方案,帮助用户实现高效、私有…

探讨了生成式AI大模型在金融行业的应用现状与前景,指出当前大模型多用于内部生产力工具,缺乏面向客户场景。文章提出了五项核心建议:积极拥抱新技术加速数字化转型;围绕价值创造先内后外推进;推动大小模型交互以降本增效;重视数据治理与算力调度确保模型质量;加强安全风险管理保障有序发展。文中详细阐述了技术实施路径,包括云原生架构、混合模型策略、合成数据应用及联邦学习等…

针对维修培训中题库更新频繁、人工出题效率低及题目有效性难以评估的问题,提出基于向量数据库与大语言模型(LLM)的自动化题库生成方案。通过配置化平台实现文件向量化存储与知识召回,结合 Prompt 工程生成符合规范的试题。实践表明,该方案可显著减少人工梳理工时,支持单选题、多选题等多种题型生成,并具备重复率检测与失效风险识别能力,有效提升了培训考核的覆盖度与准…

系统介绍了 AI 大模型的学习路径与技术体系。内容涵盖从人工智能演进、Transformer 架构原理、数据预处理、分布式训练策略,到有监督微调、强化学习对齐及应用落地评估的全流程。重点解析了 LoRA 微调、DeepSpeed 实践、RLHF 机制及多模态应用等核心技术点,为开发者提供从入门到专业的完整技术指南,助力掌握大模型开发与应用能力。

探讨了 AI 时代下产品经理的职业转型路径与核心技能要求。文章分析了传统产品岗位面临的挑战,指出掌握大模型、多模态及 Agent 智能体落地策略的重要性。内容涵盖从大模型系统设计、提示词工程、平台应用开发到垂直领域微调的完整学习路线,并结合金融、零售、教育等行业案例拆解了 AI 产品的实际应用场景。旨在帮助从业者建立 AI 产品能力,实现职业升级。

大模型是指参数量达到数亿至数千亿的深度学习模型,具备强大的通用性和任务适应能力。详细阐述了大模型的定义及其与小模型的区别,按输入数据类型分为语言、视觉及多模态大模型,按应用层级划分为通用、行业与垂直模型。重点解析了以大语言模型(LLM)为核心的 Transformer 架构,包括注意力机制与位置编码原理,并介绍了预训练、微调及 RLHF 训练范式。此外,文章…

针对中文大模型在指令调优方面的不足,研究团队构建了 COIG-CQIA 高质量中文指令调优数据集。该数据集整合了社交媒体、百科知识、NLP 任务及考试试题等多源数据,特别纳入了百度弱智吧的有趣语料以提升模型的常识推理和交互能力。实验显示,基于该数据集微调的 Yi 和 Qwen 模型在人类评估和安全基准上表现优异,证明了多样化数据对提升中文 LLM 性能的关键…

构建通用 LLM Agent 需经历七个关键步骤:首先挑选合适的模型并评估其推理与工具调用能力;其次设定控制逻辑如 ReAct 或规划执行模式;接着定义核心指令、优化工具集及内存管理策略;随后解析原始输出为结构化数据;最后建立编排逻辑以决定后续行动。单智能体适用于原型开发,复杂场景可考虑多智能体架构分摊负载。详细阐述了从模型选择到系统编排的完整路径,为构建可…

详细解析了大模型产品经理的核心岗位职责,涵盖市场调研、需求分析及智能应用探索。同时提供了系统的四阶段技术学习路径:从基础的提示工程与模型认知,进阶至 RAG 架构与向量检索,深入模型微调与 Transformer 原理,最后落脚于商业部署与成本优化。内容包含关键代码示例与技术概念详解,旨在帮助从业者构建完整的大模型技术知识体系,提升产品落地能力。

字节跳动推出的国内免费 AI 绘画工具 Dreamina。文章涵盖了从注册登录、基础文生图操作到进阶编辑功能(如细节重绘、扩图、消除笔)的全流程指南。重点解析了提示词工程的编写技巧,包括主体描述、风格限定和技术参数设置,并提供了具体的科幻与写实风格案例。此外,还探讨了工具背后的云雀大模型技术、适用人群场景以及版权合规注意事项。Dreamina 作为 Midj…

基于 RockyLinux8 环境,演示如何使用 LLaMA-Factory 对 Llama3-8B 中文模型进行 LoRA 微调。流程涵盖数据集准备、训练脚本配置、模型合并导出以及基于 llama.cpp 和 Phidata 的 RAG 应用部署。详细说明了参数设置、模板配置及常见问题处理,适合具备基础 Linux 操作经验的开发者参考。

深入评测了 2025 年六大主流 AI 大模型产品,涵盖 OpenAI o1/o3、Claude 3.5 Sonnet、DeepSeek V3、Gemini 2.0、智谱清言及 Kimi。文章分析了各模型在推理能力、代码生成、多模态交互、长文本处理及工具调用等方面的技术特点与应用场景。重点探讨了不同模型在成本、效率与准确性之间的权衡,为开发者和企业选型提供参…

大模型微调的基础概念及常见方法,重点阐述了基于 LLaMA-Factory 框架对阿里 Qwen2.5-7B 模型进行有监督微调(SFT)的完整流程。内容涵盖环境准备、依赖安装、模型下载、配置文件编写、训练执行及推理测试。通过调整 LoRA 参数与数据集,可实现模型在特定任务上的性能提升,并提供了配置详解与常见问题排查建议,帮助开发者高效完成垂直领域模型的定…