
LLM 指令微调:数据质量与多样性对对齐效果的影响
探讨了 LLM 指令微调中数据数量与质量的关系。通过 LIMA、AlpaGasus、LTD 及 WizardLM 等论文案例,分析了高质量样本筛选、自动化过滤、聚类多样性采样及指令改写等策略。研究表明,在预训练知识充足的前提下,少量高质、多样且风格一致的数据往往优于海量低质数据。同时讨论了自动化筛选的潜在偏差及复杂指令生成的有效性,为实际工程中的数据集构建提…
博客作者
电竞爱好者
335
已发布文章
11K
博客获赞
530K
博客浏览
第 16 页

探讨了 LLM 指令微调中数据数量与质量的关系。通过 LIMA、AlpaGasus、LTD 及 WizardLM 等论文案例,分析了高质量样本筛选、自动化过滤、聚类多样性采样及指令改写等策略。研究表明,在预训练知识充足的前提下,少量高质、多样且风格一致的数据往往优于海量低质数据。同时讨论了自动化筛选的潜在偏差及复杂指令生成的有效性,为实际工程中的数据集构建提…

基于 Dify 平台结合大语言模型与智能体技术,实现私有化智能助手的从零构建。文章详细阐述了 Docker 环境下的部署流程、私有化知识库的搭建策略及 RAG 引擎配置,并深入介绍了智能体的工作流设计与工具集成方法。通过该方案,开发者可快速搭建具备数据检索增强能力的 AI 应用,在保障数据安全与隐私的前提下,满足企业级个性化需求,并提供后续测试优化建议。

基于腾讯 ConTech 大会对话实录,探讨了 AI 大模型对教育、科研及社会生活的深远影响。主要观点包括:AI 不会取代人类但不用会被淘汰;人类想象力是 AI 无法比拟的核心竞争力;技术是双刃剑,需政策与素养共同调节;AI 如同水电般不可或缺,需弥合智能鸿沟;技能生命周期缩短要求终身学习;面对机器保持人文之心,面对人保持理性之心。文章强调了人机互生关系及拥…

探讨了大模型在企业落地应用中的策略与实践。文章分析了人工智能作为新质生产力核心要素的背景,阐述了大模型在知识管理、智能客服、营销文案等场景的具体价值。详细解析了 RAG 检索增强生成、微调技术、Agent 智能体架构及部署优化等关键技术路径,并强调了数据安全与合规的重要性。最后指出人机协同将是长期趋势,企业需通过技术融合实现智能化转型。

LangChain 中的代理(Agent)模块,涵盖其核心概念、工具包使用及四种主要代理类型。详细解析了 CONVERSATIONAL_REACT_DESCRIPTION、OPENAI_FUNCTIONS、Plan-and-Execute 及 ZERO_SHOT_REACT_DESCRIPTION 的实现代码与执行日志,展示了 LLM 如何通过思考、行动、观…

详细解析了大模型智能体(Agent)的核心概念与架构。智能体是在大语言模型基础上,增加了规划、记忆和工具使用能力的通用问题解决器。文章深入探讨了规划的三种模式(子任务分解、思维链 CoT、思维树 ToT)及 ReAct 推理行动机制,阐述了短期与长期记忆的实现原理,并重点介绍了 Function Calling 作为连接外部工具的关键技术。通过 MetaGP…

在 Linux 环境下通过 Docker 部署 FastGPT 和 OneAPI,结合 Ollama 运行本地大模型及 M3E 向量模型,实现本地知识库问答系统的完整流程。涵盖环境搭建、模型配置、渠道接入及知识库索引测试步骤,无需依赖第三方在线服务即可完成私有化部署。内容包括 Docker 安装、FastGPT 初始化、OneAPI 渠道配置、Ollama…

AI 大模型工程师成长路径分为零基础入门、基础进阶与工作应用三个阶段。入门阶段侧重机器学习基础与 Python 实践,推荐《机器学习算法的数学解析与 Python 实现》等书籍建立大局观;进阶阶段深入深度学习理论与系统能力,涵盖神经网络、概率统计及工程框架;工作应用阶段关注软件工程方法与商业化落地。通过循序渐进的学习路线,帮助学习者避开常见误区,掌握核心技能…

解析了人工智能产业链的基础层、技术层与应用层架构,阐述了 AI 产品经理在行业中的四象限分类(突破型、创新型、应用型、普及型)及岗位布局。重点分析了 AI 产品经理的核心能力要求,指出需具备 AI 思维而非仅懂算法,并列举了常见成长误区如目标缺失、眼高手低等,提供了针对性的解决策略。文章强调 AI 产品经理应是一专多能的复合型人才,需找准定位,持续学习,以适…

深入探讨了生成式人工智能领域的四大核心技术:提示工程、函数调用、检索增强生成以及微调。提示工程通过优化输入引导模型输出;函数调用扩展了模型与外部系统交互的能力;RAG 结合外部知识库提升回答准确性;微调则针对特定领域数据调整模型参数。文章详细解析了各技术的原理、应用场景及实施要点,并提供了技术选型建议,帮助开发者根据实际需求构建高效的大模型应用系统。

调研了阿里云析言、智谱清言及通义千问等大厂的 GBI 产品方案,并通过实际测试对比了它们在数据问答、复杂分析任务上的表现。文章指出,优秀的 GBI 产品需具备需求分析、任务规划、工具调用(如 Python 代码解释器、SQL)及多轮对话能力。基于测试结论,提出了构建 GBI 产品的关键技术架构建议,涵盖数据接入、模型推理、智能体编排及应用交互层,并探讨了评估…

详细讲解了大模型的核心概念与基础知识,涵盖算法、数据、算力三大要素,深入剖析了 Transformer 架构、Token 分词、训练流程(预训练、微调、对齐)及 RLHF 机制。文章介绍了提示工程(Prompt Engineering)的构成与进阶技巧(CoT、ToT),探讨了防止 Prompt 攻击的策略。此外,还阐述了模型优化技术如 LoRA、剪枝、量化…

20 款程序员开发必备软件,涵盖集成开发环境、数据库管理、版本控制及系统工具。包括 IntelliJ IDEA、VS Code、Chrome、Postman 等主流工具,详细介绍了各软件的核心功能、适用场景及使用技巧,旨在帮助开发者提升编码效率与项目协作能力。

AI 大模型领域快速发展,产品经理需掌握市场调研、底层架构及变现模式。文章梳理了对话生成、AI 绘图、虚拟助手等主流品类,解析了从基础模型能力到应用框架层的技术实现逻辑,包括数据源、接口、开源模型及安全合规。同时探讨了自媒体与小企业的商业化路径,并提供了系统学习大模型 LLM 的路线图,涵盖系统设计、提示词工程、平台开发、知识库构建、微调开发及多模态应用等阶…

针对 IPAdapter-FaceId 在 SDXL 模型上表现不佳的问题,介绍使用 InstantID 实现稳定 AI 写真的方法。InstantID 是 ControlNet 的一种,能提取面部特征并应用于生成图片。文章详细演示了在 Stable Diffusion WebUI 中的配置步骤,包括基础参数设置、双 ControlNet 网络(面部特征与姿…

基于 DeepSeek 大模型与本地知识库(RAG)的搭建方案。主要涵盖两种主流工具:Cherry Studio 与 AnythingLLM。文章首先阐述了数据流程,包括文档解析、向量化处理及检索增强生成机制。随后分步讲解了 Ollama 环境配置、嵌入模型 bge-m3 的拉取、以及两款软件的具体安装与设置流程。重点对比了两者的优缺点,指出 Cherry…

Adaptive-Note RAG 框架通过迭代信息搜集器(IIC)和自适应记忆审核器(AMR)解决传统 RAG 在复杂问答中的信息不足问题。IIC 利用笔记机制逐步提炼和整合检索信息,避免过早生成;AMR 基于质量对比决定何时停止检索,防止无效探索。实验显示,该方法在 2WikiMQA 等数据集上显著优于朴素 RAG 及其他自适应方法,尤其在多跳问答任务中…

分享从零开始学习网络安全并成长为渗透测试工程师的个人经历,涵盖入门心态调整、基础技能积累、培训实战及职场适应等关键阶段。重点探讨了天赋与努力的关系、职业定位的反思以及持续学习的重要性,为初学者提供了一条可参考的技术成长路径与避坑指南。文章详细描述了从迷茫到坚定的心路历程,并补充了具体的技术学习建议,包括 Linux 基础、Web 漏洞原理、工具使用及实战演练…

基于三本经典 Python 教材梳理了系统化的学习路径。涵盖基础语法如变量列表字典、项目实战如游戏开发与数据可视化、自动化任务如文件管理与网页抓取以及进阶项目如生命游戏与图像处理。通过提供具体的代码示例,帮助初学者理解核心概念并建立完整的编程知识体系,避免碎片化学习。

Visual Studio Code 是一款开源的跨平台代码编辑器,支持多种编程语言。从官网下载、不同操作系统下的安装步骤到基础配置的完整流程。内容涵盖稳定版与内测版的区别选择、扩展管理、常用快捷键设置以及远程开发功能的使用建议,旨在帮助开发者快速搭建高效、个性化的编码环境,解决常见配置问题。