弱智吧数据助力中文大模型指令微调研究
「被门夹过的核桃,还能补脑吗?」
在中文互联网社区中,百度贴吧的「弱智吧」是一个独特的存在。这里聚集了大量自称「弱智」但实则思维跳跃、逻辑诡谲的用户。近年来,弱智吧的年度总结文章多次占据百度贴吧热度榜首。所谓的总结,是对当年吧内精彩发言的盘点与排名。

随着平台发展十余年,弱智吧的内容风格日益多样化,涵盖了心灵鸡汤、现代诗乃至具有哲学意味的讨论。这些高质量的段子不仅吸引了大量围观和转载,更成为了网络流行语的发源地之一。最近,一篇人工智能领域的论文将弱智吧推向了风口浪尖,揭示了其在训练大型语言模型(LLM)中的潜在价值。
中文大模型的指令调优挑战
近期,大型语言模型在英语领域取得了显著进展,但在中文指令调优方面仍存在明显差距。现有的数据集往往以英语为中心,或者不适合与现实世界的中国用户交互模式保持一致。为了弥补这一差距,一项由 10 家机构联合发布的研究提出了 COIG-CQIA(Chinese Open Instruction Generalist - Quality Is All You Need),这是一个高质量的中文指令调优数据集。
该研究旨在为社区建立一个多样化、广泛的指令调优数据集,以更好地使模型行为与人类交互保持一致。数据来源包括问答社区、维基百科、考试题目和现有的 NLP 数据集,并且经过严格过滤和处理。
COIG-CQIA 数据集详解
为了保证数据质量以及多样性,研究者从中国互联网内的优质网站和数据资源中手动选择了数据源。这些来源包括社区问答论坛、内容创作平台、考试试题等。此外,该数据集还纳入了高质量的中文 NLP 数据集,以丰富任务的多样性。具体来说,本文将数据源分为四种类型:
- 社交媒体和论坛:包括知乎、SegmentFault、豆瓣、小红书、弱智吧。
- 世界知识:百科全书、四个特定领域的数据(医学、经济管理、电子学和农业)。
- NLP 数据集:COIG-PC、COIG Human Value 等。
- 考试试题:中学和大学入学考试、研究生入学考试、逻辑推理测试、中国传统文化。

研究者从中国互联网和社区的 22 个来源总共收集了 48,375 个实例,涵盖从常识、STEM 到人文等领域。图 2 说明了各种任务类型,包括信息提取、问答、代码生成等。图 3 演示了指令和响应的长度分布。
为了分析 COIG-CQIA 数据集的多样性,本文遵循先前的工作,使用 Hanlp 工具来解析指令。

弱智吧数据的独特价值
弱智吧之所以被纳入数据集,是因为其内容具有极高的语言多样性和逻辑挑战性。用户在此发布的提问往往包含反讽、双关、脑筋急转弯等非标准自然语言形式。这种数据对于提升大模型对中文语境的理解能力、处理歧义以及进行常识推理具有重要意义。通过引入此类数据,模型能够更好地学习人类在非正式场景下的表达习惯,从而增强对话的自然度和趣味性。
实验结果与分析
该研究在不同数据源的数据集上对 Yi 系列模型(Young et al., 2024)和 Qwen-72B(Bai et al., 2023)模型进行了微调,以分析数据源对模型跨领域知识能力的影响,并使用 Belle-Eval 上基于模型(即 GPT-4)的自动评估来评估每个模型在各种任务上的性能。
表 2、表 3 分别显示了基于 Yi-6B、Yi-34B 在不同数据集上进行微调得到的不同模型的性能。模型在头脑风暴、生成和总结等生成任务中表现出色,在数学和编码方面表现不佳。





