基于微调技术定制专属大模型

背景

我们日常所认识的「大模型」都是经过微调之后得到的。大模型本质上是一个「文本续写的模型」。在未经过任何微调或者基于人类反馈的强化学习（RLHF）之前，模型只能实现基本的文本接龙，并没有直接理解用户任何指令或意图的能力。

下面是开源大模型零一万物 Yi-34b 未经过微调之前，模型的输出：

使用微调定制属于自己的大模型

上面的输出其实从语法结构角度来说都是对的，但是它的输出并不是「对话」形式，而是像继续编写某个文本的片段。

经过 Chat 数据微调训练之后，模型才学会如何和人类进行正常交流：

使用微调定制属于自己的大模型

用来微调 Chat 对话模型使用的训练数据如下图所示，由符合预期的「一问一答」数据组成：

使用微调定制属于自己的大模型

社区上无论是 GPT 还是开源大模型，基本都采用先预训练后微调的方式，从而得到一个对话或者其他用途的模型。

使用微调定制属于自己的大模型

什么是预训练？

在预训练阶段，模型通过学习大量的数据来提取特征、理解语义和推理能力，从而对通识知识、代码知识获得一般性认识。质量较高的预训练数据可以增强模型的泛化能力，减少在后续特定任务上的训练调优时间和资源消耗。

预训练是一种无监督学习方式，是指使用随机文本片段在大规模数据集上对神经网络模型进行初始训练，以便模型能够学习广泛的特征和知识。
预训练使用的训练数据格式，「只有输出」，没有输入的标签。大模型使用大量这种没有标记的训练数据来自己学习数据中的规律（中英文语法、代码语法、通识知识等）。

预训练适合什么场景？

从 0 开始训练一个新的通用大模型。
基座大模型 LLaMA2 中文数据非常少，只占 0.13%，有必要使用更多比例中文数据继续预训练使大模型学会中文表达。
基座大模型 LLaMA2 模型代码内容的占比同样也不高（4%），使用预训练添加更多比例的代码数据，强化大模型代码能力（Code LLaMA 代码模型）。
出了一门新的编程语言，为了让模型能够学到最新的编程语言结构，可以考虑预训练。

什么是微调？

微调使用 「一问一答」的格式，即有标注的训练数据，在基于原有模型参数上进行有监督学习，来让模型更清楚地知道什么样的输入下他应该给予什么样的输出，按照训练数据里的模式进行学习。

大模型先通过预训练学习基础知识，再通过微调让模型学会基于它通过预训练已经学会的知识，学习如何去根据用户指令输出正确适当的内容。

训练方式	Full 全参数微调	LoRA	4bit-QLoRa
占用	68450 MB	15226 MB	8422 MB

{"query":"你是一个数据可视化助手，以下是一些数据可视化配置的说明，请根据用户需求将需求转换为对应的 json 配置。\njson 配置可以选择以下属性:\nchartType, chartFields, mainAxis, sort, topN, dimensionFilters, metricFilters, chartTimeFilter\n\n详细说明: \n- chartType: 合适的图表类型，你可以取 CHART_COLUMN, CHART_LINE, CHART_PIE, TABLE_DETAIL\n- chartFields: 图表视图配置，包含 dimensions 和 metrics 两个属性，每个属性都是字符串数组。\n- chartTimeFilter: 图表时间筛选范围。如果用户指定了时间范围（如近 14 天，近半年），请添加此属性。\n- dimensionFilters: 图表的维度筛选条件，只有当用户要求筛选维度值时才添加。\n- metricFilters: 图表的结果筛选条件，只有当用户明确要求查询的指标在指定的数值范围内才添加。\n- mainAxis: 图表的主轴，一般是维度或者时间。\n- sort 属性：图表的排序配置，只有当用户要求排序时才添加此属性。\n- topN 属性：图表的 topN 配置，只有当用户的需求是 topN 如前十，最大最小时才添加此属性。如果用户要求看最大最小值那么请使用 sort 属性。\n\n注意：\n- dimensionFilters 需包含 dimension, filter 属性，condition 属性只能取以下操作符类型：[\"in\", \"not-in\", 'like', 'not-like']。in 和 not-in 表示\"包含\"和\"不包含\", like 和 not-like 表示\"匹配\"和\"不匹配\"\n- metricFilters 需包含 metric, filter 属性，condition 只能取以下操作符类型：[\"greater\", \"less\", \"interval\"]。value 属性为一个数字，如果是区间需要用英文逗号隔开。\n- sort 属性需包含以下属性：metric, sort，其中 sort 只能为\"ASC\"或者\"DESC\"。\n- topN 需包含以下属性：metric, sort, number。其中 sort 只能为\"ASC\"或者\"DESC\"，number 为数字，metric 为目标指标名称。\n- chartTimeFilter 需包含以下属性：granularity, dayjsScript。其中 granularity 只能为\"day\", \"week\", \"month\", \"quarter\", \"year\"，dayjsScript 为一个数组，数组中的每个元素都是一个 dayjs 脚本，用于计算时间范围。\n\n已知的维度列表:\n[\"订单日期\", \"地区\", \"销售员\", \"客户群\", \"产品类别\"]\n\n已知的指标列表：\n[\"销售额\", \"退货率\", \"数量\", \"利润率\", \"客户满意度\"]\n\n已知的时间字段：\"订单日期\"\n\n若是趋势图请使用时间字段作为主轴，并且图表类型设置为线图。\n\n现在用户需求：今年第二季度各销售员在北方地区的销售额与退货率。\n\n请根据用户需求生成对应的可视化 json 配置：","response":"```json\n{\n \"chartType\": \"TABLE_DETAIL\",\n \"chartFields\": {\n \"dimensions\": [\n \"销售员\"\n ],\n \"metrics\": [\n \"销售额\",\n \"退货率\"\n ]\n },\n \"mainAxis\": \"销售员\",\n \"dimensionFilters\": [\n {\n \"dimension\": \"地区\",\n \"filter\": {\n \"condition\": \"in\",\n \"value\": [\"北方\"]\n }\n }\n ],\n \"chartTimeFilter\": {\n \"granularity\": \"quarter\",\n \"dayjsScript\": [\"dayjs().quarter(2).startOf('quarter')\", \"dayjs().quarter(2).endOf('quarter')\"]\n }\n}\n\n```"}

模型	正确率
Yi-6b-sft	90%
GPT-4-few-shot	96%
GPT-3.5-few-shot	79%