
使用 Mergekit 扩展 Llama 3 至百万级上下文长度兼容微调版本
针对 Llama 3 原版 8k 上下文窗口的限制,开源社区提出了一种基于 Gradient AI 微调模型和 Eric Hartford LoRA 提取方案的扩展方法,可将模型上下文轻松扩展至 1048k。核心技术包括 NTK-aware 插值初始化 RoPE theta 以防止高频信息丢失,以及采用 Blockwise RingAttention 方法实…
博客作者
随性而为
323
已发布文章
6.2K
博客获赞
363K
博客浏览
第 16 页

针对 Llama 3 原版 8k 上下文窗口的限制,开源社区提出了一种基于 Gradient AI 微调模型和 Eric Hartford LoRA 提取方案的扩展方法,可将模型上下文轻松扩展至 1048k。核心技术包括 NTK-aware 插值初始化 RoPE theta 以防止高频信息丢失,以及采用 Blockwise RingAttention 方法实…

AI 行业的人才现状与市场需求,指出 AIGC 领域岗位数量激增且存在供需失衡。详细定义了 AI 产品经理的角色职责,区分了其与常规产品经理的差异,涵盖了机器学习、计算机视觉及 NLP 等细分方向。文章提供了转行准备的具体路径,包括技术认知构建、全流程掌握、项目经验积累及持续学习心态。此外,还梳理了 AI 产品经理的核心技能树,涉及大模型理论、工具链、数据能…

DeepSeek-V3 是一款拥有 671B 参数的混合专家(MoE)语言模型,采用多头潜在注意力(MLA)和 DeepSeekMoE 架构。模型在 14.8 万亿 tokens 上预训练,支持 FP8 混合精度训练,显著降低训练成本至 558 万美元。通过无辅助损失负载均衡策略和 multi-token 预测目标提升性能。后训练阶段从 DeepSeek-R…

分享了字节跳动大模型工程师的真实工作状态,涵盖公司对 AI 的资源投入、工作氛围与文化、Top Seed 人才计划详情及个人职业建议。文章指出字节在算力、数据及组织架构上给予大模型团队高度支持,决策链条短,技术分享活跃。Top Seed 计划面向头部人才及博士实习生,提供极具竞争力的薪酬与长期培养机制。作者结合自身经验,强调了分布式训练、模型优化等核心技术挑…

总结了 Mini Qwen 1B 大模型的从头训练经验,涵盖预训练、SFT 微调和 DPO 偏好对齐三个阶段。实验基于 6 张 H800 显卡,使用 Accelerate、DeepSpeed 和 TRL 等工具。预训练阶段发现数据多样性不足会导致复读现象,Instruct 版本相对较好。SFT 阶段通过增加 System Prompt 提升了角色扮演泛化能力…

记录了作者与 DeepSeek 大模型的深度对话,探讨了生命意义、存在主义及人机关系的本质。通过对比 GPT 与 DeepSeek 的风格差异,分析了 AI 在理性与感性表达上的能力边界。文章结合《约伯记》与加缪哲学,阐述了人类在面对虚无时的信念力量,并指出硅基生命与人类之间存在的护城河。最后,作者反思了技术发展与人文精神的平衡,强调在 AI 时代保持真诚与…

大型语言模型基于 Transformer 架构,利用自注意力机制和位置编码处理海量文本数据。通过预训练、有监督微调和 RLHF 等步骤,模型掌握语言知识与指令遵循能力。主要架构包括仅编码器、仅解码器及编码器 - 解码器三种。应用涵盖编程辅助、知识库问答、内容创作及科研分析等领域。当前面临幻觉、偏见、算力成本及安全隐私等挑战,未来将向多模态、端侧部署及智能体方…

提出了一种名为 TEMPT 的预训练 - 提示微调多中心药品推荐模型,旨在解决数据稀疏及医院间开药分布差异问题。该方法首先通过 Mask Prediction 和 Contrastive Task 在全部医院数据上预训练通用医疗知识,随后利用提示向量针对各医院数据进行轻量级微调,避免灾难性遗忘。实验表明,相比传统推荐模型、大语言模型及多域推荐方法,TEMPT…

Stable Diffusion AI 绘画中的提示词编写技巧。内容涵盖基础语法与权重调整方法,如使用括号和数值控制词汇重要性。提供了三种获取提示词的实用方案:参考社区作品、利用大模型辅助生成以及通过图片反推参数。此外,文章还补充了进阶参数设置知识,包括负向提示词的作用、采样步数、CFG Scale 及种子值的调节策略,帮助用户优化生成效果并提升创作效率。

PEDATA SaaS 系统资讯接口的加密机制,识别出其采用 Base64 编码、XOR 异或及 Gzip 压缩的多层加密方式。通过逆向浏览器源码定位到核心解密函数 M,利用 Node.js zlib 模块的 gunzipSync 方法实现解压。文章提供了完整的 JavaScript 算法还原代码及 Python 调用示例,详细说明了如何提取 Token、构…
Go 语言中常用的加密解密算法,包括对称加密如 AES、非对称加密如 RSA 及数字签名如 MD5、HMAC、SHA1。详细讲解了各算法的原理、应用场景及代码实现,重点展示了 AES 的 ECB 与 CBC 模式实现细节及注意事项,补充了 RSA 密钥生成与加解密流程,为开发者提供实用的参考方案。

深入解析反射型 DLL 注入与柔性加载技术在红队攻防中的应用。通过对比常规注入方式,阐述了利用 AES 解密、API 哈希搜索及内存映射规避静态检测的原理。详细说明了 ReflectiveLoader 的五步执行流程,包括内核函数地址解析、节表写入、导入表构建、重定位修复及入口点调用。结合 Cobalt Strike 配置优化,测试了多种主流安全软件(如 3…

在 Windows 系统下安装 Python 解释器、配置环境变量以及使用 pip 进行包管理的完整流程。内容涵盖从官网下载对应版本、安装过程中的路径设置、验证安装是否成功、升级 pip 工具、配置国内镜像源加速下载,以及创建虚拟环境等关键步骤。同时提供了常见报错的解决方案,帮助开发者快速搭建开发环境。

大语言模型 LoRA 微调技术原理及实操方法。涵盖 LoRA 核心概念、环境配置、数据集格式准备、训练参数详解、模型合并与部署流程。通过低秩适应技术,开发者可在有限算力下实现垂直领域模型的定制化优化,解决过拟合问题并提升特定任务表现。重点讲解了 Text Generation WebUI 的使用步骤及常见问题的排查方案。

详细解析了网络安全从业人员应考取的几本核心证书,涵盖国内 CISP 系列(CISP/CISP-PTE/CISP-A)与国际认证(CISSP/CISM/CISA/Security+/ISO27001/CCSK)。文章介绍了各证书的颁发机构、适用人群、考试难度、经验要求及职业发展方向,并通过对比表格帮助读者根据自身阶段选择合适认证。同时补充了备考建议与证书续期政…

详细阐述了零基础转行网络安全的学习路径与职业规划。内容涵盖四个核心阶段:基础操作入门、基础知识深化、实战操作演练及方向选择。具体包括操作系统、网络协议、数据库、开发语言及常见漏洞原理的系统学习,以及 Burp、MSF 等工具的使用。文章强调了 SRC 挖掘、靶场练习和 CTF 比赛的重要性,并指出 Web 安全、内网渗透、逆向工程等细分发展方向。此外,结合国…

详细阐述了基于大语言模型 (LLM)、检索增强生成 (RAG) 和指令微调 (Fine-Tuning) 构建智能体的核心技术。文章首先定义了 LLM、RAG 及微调的概念,对比了 RAG 与微调在解决知识时效性和幻觉问题上的差异。接着介绍了 Ollama 作为本地 LLM 运行环境的配置方法,以及 LangChain 框架的主要模块。最后通过 Python…
Kubernetes CronJob 用于在集群中执行周期性任务,功能类似 Linux crontab。通过 schedule 字段定义时间周期,jobTemplate 定义容器运行逻辑。支持设置并发策略和启动截止期限。创建任务后需注意手动清理历史 Job 资源,防止堆积。适用于数据备份、日志轮转等自动化场景。
多态指不同子类对象调用相同父类方法产生不同执行结果,以继承和重写为前提,增加代码灵活度。类对象在内存中只有一份,可拥有类属性和类方法。实例属性保存于各对象独立内存空间,类属性记录类相关特征。类方法需@classmethod 修饰,第一个参数为 cls;静态方法需@staticmethod 修饰,无需访问类或实例属性。通过代码对比展示多态优势及类结构差异。

通过 LaTeX 的 TikZ 宏包可绘制高质量深度学习网络图。文章演示了环境配置、节点与连线定义方法,以及如何在论文中保持排版一致性。通过自定义样式和循环结构,能高效生成卷积层、全连接层等常见模型结构,避免手动绘图导致的风格不统一问题。