弱智吧数据助力中文大模型指令微调研究

「被门夹过的核桃，还能补脑吗？」

在中文互联网社区中，百度贴吧的「弱智吧」是一个独特的存在。这里聚集了大量自称「弱智」但实则思维跳跃、逻辑诡谲的用户。近年来，弱智吧的年度总结文章多次占据百度贴吧热度榜首。所谓的总结，是对当年吧内精彩发言的盘点与排名。

弱智吧 VS 大模型

随着平台发展十余年，弱智吧的内容风格日益多样化，涵盖了心灵鸡汤、现代诗乃至具有哲学意味的讨论。这些高质量的段子不仅吸引了大量围观和转载，更成为了网络流行语的发源地之一。最近，一篇人工智能领域的论文将弱智吧推向了风口浪尖，揭示了其在训练大型语言模型（LLM）中的潜在价值。

中文大模型的指令调优挑战

近期，大型语言模型在英语领域取得了显著进展，但在中文指令调优方面仍存在明显差距。现有的数据集往往以英语为中心，或者不适合与现实世界的中国用户交互模式保持一致。为了弥补这一差距，一项由 10 家机构联合发布的研究提出了 COIG-CQIA（Chinese Open Instruction Generalist - Quality Is All You Need），这是一个高质量的中文指令调优数据集。

该研究旨在为社区建立一个多样化、广泛的指令调优数据集，以更好地使模型行为与人类交互保持一致。数据来源包括问答社区、维基百科、考试题目和现有的 NLP 数据集，并且经过严格过滤和处理。

COIG-CQIA 数据集详解

为了保证数据质量以及多样性，研究者从中国互联网内的优质网站和数据资源中手动选择了数据源。这些来源包括社区问答论坛、内容创作平台、考试试题等。此外，该数据集还纳入了高质量的中文 NLP 数据集，以丰富任务的多样性。具体来说，本文将数据源分为四种类型：

社交媒体和论坛：包括知乎、SegmentFault、豆瓣、小红书、弱智吧。
世界知识：百科全书、四个特定领域的数据（医学、经济管理、电子学和农业）。
NLP 数据集：COIG-PC、COIG Human Value 等。
考试试题：中学和大学入学考试、研究生入学考试、逻辑推理测试、中国传统文化。

数据集来源统计

研究者从中国互联网和社区的 22 个来源总共收集了 48,375 个实例，涵盖从常识、STEM 到人文等领域。图 2 说明了各种任务类型，包括信息提取、问答、代码生成等。图 3 演示了指令和响应的长度分布。

为了分析 COIG-CQIA 数据集的多样性，本文遵循先前的工作，使用 Hanlp 工具来解析指令。

指令解析示例

弱智吧数据的独特价值

弱智吧之所以被纳入数据集，是因为其内容具有极高的语言多样性和逻辑挑战性。用户在此发布的提问往往包含反讽、双关、脑筋急转弯等非标准自然语言形式。这种数据对于提升大模型对中文语境的理解能力、处理歧义以及进行常识推理具有重要意义。通过引入此类数据，模型能够更好地学习人类在非正式场景下的表达习惯，从而增强对话的自然度和趣味性。

实验结果与分析

该研究在不同数据源的数据集上对 Yi 系列模型（Young et al., 2024）和 Qwen-72B（Bai et al., 2023）模型进行了微调，以分析数据源对模型跨领域知识能力的影响，并使用 Belle-Eval 上基于模型（即 GPT-4）的自动评估来评估每个模型在各种任务上的性能。