
生成式 AI 与大语言模型(LLM)原理简明教程
生成式 AI 与大语言模型(LLM)通过预测下一个 token 来生成文本。文章介绍了 token 化、词汇表及 BPE 算法,解释了模型如何通过概率预测连续生成文本。训练过程涉及从简单的马尔可夫链概率表过渡到大规模神经网络,后者解决了上下文窗口扩展带来的指数级存储问题。Transformer 架构引入注意力机制,使模型能捕捉长距离依赖关系。尽管 LLM 能…
博客作者
系统架构设计师
325
已发布文章
10K
博客获赞
486K
博客浏览
第 16 页

生成式 AI 与大语言模型(LLM)通过预测下一个 token 来生成文本。文章介绍了 token 化、词汇表及 BPE 算法,解释了模型如何通过概率预测连续生成文本。训练过程涉及从简单的马尔可夫链概率表过渡到大规模神经网络,后者解决了上下文窗口扩展带来的指数级存储问题。Transformer 架构引入注意力机制,使模型能捕捉长距离依赖关系。尽管 LLM 能…

深入分析了从 RAG 到 Agent 的技术演进路径。首先阐述了传统 RAG 在处理复杂查询、多跳推理及结构化任务时的局限性。随后介绍了 Agent 的核心能力,包括任务规划、工具调用、记忆管理及反思机制。通过阿里千问团队的案例,展示了分层构建 Agent(检索优化、分块阅读、逐步推理)的具体实践及实验效果。文章进一步探讨了规划器、工具调用、记忆模块和反思修…

涵盖大语言模型核心面试知识点,包括 ReAct 框架优势、LangChain Agent 机制、Token 计数挑战、预训练关键步骤、RLHF 与 SFT 对比、参数高效微调方法(LoRA/Adapter)、稀疏微调以及量化技术(PTQ/QAT)的区别。内容深入解析各技术的原理、应用场景及优缺点,为开发者提供系统的理论支撑与实践参考。

Stable Diffusion 是一款开源的深度学习文本到图像生成模型,广泛应用于数字艺术创作。 Stable Diffusion 的工作原理、环境搭建流程以及核心功能操作。内容包括硬件配置要求、WebUI 安装步骤、提示词编写技巧、参数调节方法以及模型管理策略。通过掌握正向与反向提示词、采样器选择及高分辨率修复等技术,用户可以高效生成高质量图像,适用于壁…

大模型算法岗位面试的 28 个核心问题,涵盖 RAG 技术体系、幻觉处理、微调方法(SFT/LoRA/RLHF)、主流开源模型架构(LLaMA/ChatGLM)、训练优化技巧(DeepSpeed/混合精度)及推理显存管理等内容。旨在帮助求职者系统掌握大模型关键技术点,提升面试通过率。

探讨了将大模型能力与网络爬虫结合的技术方案。通过测试大模型对豆瓣电影页面 HTML 的数据提取效果,验证了直接调用 API 的可行性。随后介绍了基于 ScrapeGraphAI 框架的简化实现方式。文章对比了两种方法的代码复杂度与适用场景,并分析了在 Token 限制、反爬策略及成本方面的潜在挑战,为开发者提供构建智能爬虫的参考路径。

解读了稀疏门控混合专家(MoE)模型架构,探讨了条件计算如何解决神经网络容量受限问题。通过引入可训练的门控网络,模型仅激活部分专家子网络,实现了千倍容量提升且计算效率可控。文章详细分析了 MoE 层的结构、Top-K 门控机制、负载均衡损失函数设计以及在实际语言建模和机器翻译任务中的实验效果,展示了其在降低困惑度和提高 BLEU 分数方面的优势。同时讨论了分…

综述了小型语言模型(SLMs)的技术现状与发展。文章介绍了 SLMs 的核心优势,包括低延迟、低成本及易定制性,并详细阐述了构建 SLMs 的基础概念,涵盖 Transformer 架构、预训练范式及从 LLMs 迁移的方法。重点分析了剪枝、知识蒸馏和量化三大模型压缩技术的原理、优缺点及应用场景。此外,探讨了 SLMs 在问答、编程、推荐系统及边缘设备上的具…

2024 年 AIGC 行业发展现状,涵盖产业生态、前沿技术、应用场景及未来展望。产业生态分为基础设施、模型和应用三层,数据服务成新增量。技术上多模态成共识,扩散模型主导视频生成。应用层面,ToB 端在数字人、SaaS、金融等领域降本增效,ToC 端在游戏、影视、出版提升效率。同时面临数据隐私、版权、伦理等挑战。预计 2030 年中国 AIGC 市场规模将超…

文章分析了大厂与名校背景求职者常被 HR 拒绝的原因,包括简历花哨、跳槽频繁等问题。提供了简历优化技巧,强调内容熟悉度而非形式;面试准备需掌握项目细节与技术原理;探讨了大数据与 Java 等技术赛道的选择策略;建议根据职业发展阶段选择合适规模的企业,并强调持续学习与技术匹配的重要性,帮助新人提升竞争力。

利用人工智能工具进行红包封面、个性化头像及手机壁纸的创作流程。通过解析提示词工程、风格控制及批量生成策略,帮助用户掌握高效的设计工作流。内容涵盖春节元素应用、动漫头像定制技巧以及壁纸账号运营建议,旨在降低设计门槛,提升副业效率,适应未来职场对 AI 技能的需求。

探讨了 AI 大模型的技术演进与应用生态。从 ChatGPT 和 Sora 的发布切入,分析了全球人工智能产业的发展现状与中国政策支持环境。文章详细梳理了大模型开发的七大技术路径,涵盖系统设计、提示词工程、平台应用、知识库构建(LangChain/RAG)、模型微调(LoRA)、多模态应用及行业落地。同时介绍了相关岗位的市场需求与薪资水平,指出掌握大模型技术…

大模型在同花顺金融业务场景中的落地实践与优化方案。内容涵盖问答系统、对话系统、信息抽取及舆情监控四大核心场景的技术实现细节。在问答场景中,针对金融知识的时效性与精确性难点,采用大模型替代传统规则系统提升语义识别与 NER 准确率。对话系统区分 C 端投顾与 B 端营销客服,利用槽位抽取与意图识别模型优化交互体验。信息抽取与舆情监控部分展示了如何利用大模型构建…

介绍开源项目 Langchain-Chatchat,这是一个基于 Langchain 和大语言模型(LLM)的检索增强生成(RAG)知识库解决方案。支持离线私有部署,兼容多种开源模型及 Embedding 模型。文章涵盖项目原理、软硬件部署要求、Docker 与本地部署步骤、Lite 模式配置以及常见问题排查,旨在帮助开发者快速搭建本地化的智能问答系统。内容…

如何在本地环境通过 Ollama 快速部署和运行 Llama3 模型。内容涵盖基础安装方法(Mac/Linux/WSL)、CLI 交互测试、Docker 部署 Web UI 界面以及 Python SDK(LiteLLM、LangChain)集成方案。同时包含硬件加速配置建议和常见故障排除指南,帮助用户在个人设备上实现大模型的高效推理。

Python 使用 smtplib 和 email 模块可实现邮件发送。smtplib 负责建立连接、登录及传输协议交互,email 模块则处理 MIME 编码以支持 HTML、图片及附件。通过 TXT、HTML、内嵌图片及混合附件四种场景演示代码实现,涵盖 MIMEMultipart 类型选择、Content-ID 引用及 Base64 编码等关键细节。注…
AIGC 技术在教育学领域的应用涵盖智能教学辅助、个性化学习推荐及学习数据分析。通过引入 AI 工具,教师可提升备课效率与作业批改速度,系统能基于学生数据提供定制化学习路径。尽管存在技术整合难度、数据隐私安全及技术依赖等挑战,但通过加强技能培训、完善数据管理制度及平衡技术与人文关怀可有效应对。未来智能化教学平台将普及,促进跨学科融合与创新,为教育领域带来深远…

JavaScript 注释用于解释代码或提高可读性,不会被执行。支持单行注释(//)和多行注释(/* */),可用于临时禁用代码段进行调试,也可添加在代码行末说明逻辑。

MyBatis 动态 SQL 支持根据条件灵活拼接语句,避免 JDBC 手动拼接的空格和逗号问题。MyBatis 3 基于 OGNL 表达式精简了动态标签种类。主要标签包括 if 条件判断、choose/when/otherwise 分支选择、set 更新处理、trim 字符修剪及 foreach 集合遍历。这些功能增强了 SQL 映射的易用性与维护效率。

程序员群体常被外界视为社畜,实则怀揣鸿鹄之志。他们寒窗苦读十余载,投身代码世界,虽常伏案昼夜不分,却以技术谋生。面对分布式、微服务等复杂概念,有人自嘲才疏学浅,亦有人精通业务赋能。尽管行业竞争激烈,青丝易落,仍有无数开发者愿为理想坚守。草木秋死而松柏独存,即便千万人反对,依然选择前行,这是属于技术人的浪漫与执着。