前言
'五一'节后第一个好消息是我们开源的大模型基础项目已达到 1k Stars。这个开源项目旨在提供浅显易懂且前沿的大模型基础知识,能收获 1k 个 Stars 是对项目的肯定。我为一起付出努力的贡献者感到开心,也为课程的核心贡献者表达谢意。
作为该项目的一员,我将发起这个项目的初衷、打造过程中遇到的困难及解决方法做以总结,希望给同样想以知识为切入点贡献大模型开源的朋友提供参考案例。
蓄势待发
大模型时代的到来,让 NLP 研究者与工程师感受到了如海啸般的冲击。在 Scaling Law、语言模型(LM)和强化学习的极致组合下,大规模语言模型(LLM)在 2022 和 2023 年之交应运而生。
2019 年中旬,我开始调研预训练模型相关知识并着手训练 GPT-3 大小的中文预训练语言模型(PLM),到 2023 年中旬转向 LLM 的学术研究,有幸见证了大模型从混沌之初到拨云见日。
目前大模型正飞速向前发展,人工智能领域迎来深刻变革。尤其是 NLP 领域,层出不穷的模型架构、预训练知识、Prompt 策略不仅推动了研究前沿,也在医疗、法律等领域展现出巨大的应用潜力。Llama、ChatGPT 等开源或商用大模型的出现,直接改变了我们与信息知识交互的方式,大模型的影响已渗透到社会各个角落。
在这种环境下,系统、易懂且理论丰富的开源教程变得愈发重要。但是,信息获取渠道目前主要以实战和具体应用案例为主,而在理论深度和广度上往往不足。解决这个问题的方式是开发和推广更多涵盖理论基础和实践应用的综合教程,帮助研究者、企业家、从业者和公众深入了解大模型底层的原理、机制和对社会的影响。
核心技术背景
理解大模型需要掌握 Transformer 架构的基础。Transformer 通过自注意力机制(Self-Attention)捕捉长距离依赖关系,取代了传统的 RNN 结构。预训练阶段利用海量无标注数据学习通用语言表示,随后通过有监督微调(SFT)和人类反馈强化学习(RLHF)对齐人类价值观。
Scaling Law 指出,随着模型参数、数据集规模和计算量的增加,模型性能呈现可预测的提升。这解释了为何大模型需要庞大的算力支持,也说明了开源社区在降低算力门槛方面的重要性。
初次尝试
在大模型这场技术和社会大课题下,我和 Datawhale 的小伙伴张帆一拍即合,决定通过开源的方式分享当前大模型的基础知识。经过多次讨论和分析,最终我们确定开源课程可以解决以下问题:
1. 知识传播的必要性
- 由于大模型具有庞大的参数和复杂的技术架构,理解其工作原理并非易事。因此,介绍基础理论知识,有助于降低学习门槛,为更多人打开进入 AI 领域的大门。
- 大模型技术的应用已经深入社会各个领域,包括生成式对话、内容创作、数据分析等。对相关从业者和研究者来说,深入理解其理论基础显得尤为重要。这种深入的理解能让他们在应用这些技术时更具优势,例如可以更有效地将这些技术纳入企业战略规划和日常运营中。这不仅提升了技术应用的效果,也增强了企业和个人在竞争中的地位。
- 随着技术的广泛应用,大模型的社会影响也引发了大量讨论。传播理论知识不仅能帮助公众更全面地认识大模型的能力和局限,还可以减少误解和偏见,促进公众对 AI 技术的理解和信任。
2. 当前社会的影响
- 大模型生成的内容可能包含虚假信息或社会偏见,引发了法律和伦理问题,需要广泛的理论知识传播来提升公众认知,推动监管体系的完善。
- 大模型的普及使许多传统工作岗位面临挑战,因此帮助从业者掌握大模型的基本知识与技能,促进就业和产业变化至关重要。
- 大模型的开源促使更多研究者参与到相关技术的开发与创新中,加强了学术界与产业界的联系,推动技术创新和加速。
难题显现
尽管我们对这场大模型技术和社会变革怀有极大的热情,并希望通过开源课程推动知识传播和技术普及,但实际进展并不如预期顺利。在初步发布的课程中,我们遇到了很多的挑战和难题。
首先,大模型技术学习的高门槛阻碍了参与者。尽管课程尽可能降低了对学员的要求,仍有大量学习者在面对大模型的庞大知识体系时望而却步。课程中涉及的技术细节和复杂概念让许多对该领域感兴趣的初学者难以深入理解,参与学习的动力不足。此外,硬件资源限制也是常见问题,本地运行大模型需要高性能 GPU,这对普通开发者构成了物理障碍。
其次,受众需求差异明显。开源课程面向的受众层次不一,包括学术研究者、企业家、技术从业者和普通爱好者等。在设计课程时,我们试图兼顾不同群体的需求,但实际效果却是由于难以平衡课程难度,导致各类学习者的参与度不高。
以上两个问题导致开源项目参与度低。虽然我们希望通过开源方式吸引更多的开发者和学习者加入社区,共同完善课程内容和资源,但当时实际参与度远低于预期。许多学习者在学习过程中只浏览了课程的部分内容,而对开源项目的贡献和反馈寥寥。由于社区反馈不足,课程开发团队在课程迭代和改进上遇到阻力,内容改进方向模糊,难以确定课程内容的不足之处和改进方向。
破局
面对上述难题,我们意识到,仅凭一己之力很难实现课程的初衷目标。项目在 24 年前几个月经历了长时间的停摆,但是我们一直相信当前大模型的开源课程中缺少基础及理论的代表作,这件事是有意义的。年后我和项目另一位的构建者张帆长谈,针对当前困境展开了深刻的思考与讨论。分析当前的困境和我们能做的努力,在接下来的课程开发和推广中,我们做了如下改变:


