开源模型 Mistral 与 Qwen Prompt 实验报告

综述由AI生成对比测试了 Mistral（7B/13B）与 Qwen（7B/14B）在基础指令、Few-Shot、CoT 推理及角色扮演四类 Prompt 下的表现。实验显示参数量显著影响性能，13B/14B 优于 7B。Qwen-14B 在中文理解、推理拆解及角色一致性上更优，Mistral 系列推理速度更快。文章提供了针对两类模型的 Prompt 优化建议，如 Mistral 需精简上下文，Qwen 需明确格式，为开源模型应用提供参考。

极客工坊发布于 2026/4/5更新于 2026/5/2434 浏览

在这里插入图片描述

本文为明确开源模型 Prompt 适配特性，本实验以 Mistral（7B/13B）与 Qwen（7B/14B）为对象，在统一硬件软件环境与推理参数（Temperature 0.7、Top-P 0.9 等）下，测试其在基础指令、Few-Shot、Chain-of-Thought（CoT）推理、角色扮演四类 Prompt 中的表现。结果显示，参数量显著影响性能，13B/14B 模型各项指标优于 7B 模型；Qwen-14B 在中文指令理解、推理步骤拆解及角色一致性上表现突出，Mistral 系列推理速度更快。实验还针对两类模型提出 Prompt 优化建议，如 Mistral 需精简上下文、Qwen 需明确格式要求，同时指出实验数据量有限等局限，为开源模型 Prompt 设计提供实操参考。

在这里插入图片描述

一、实验背景与目的

在大语言模型领域，闭源模型如 ChatGPT、Claude 虽在性能上有一定优势，但存在调用成本高、定制化受限等问题。而开源模型如 Mistral、Qwen，凭借可本地化部署、支持灵活微调等特性，逐渐成为企业与开发者的重要选择。不过，开源模型在 Prompt 适配性上与闭源模型存在差异，且不同开源模型间的 Prompt 响应效果也各不相同。

本次实验旨在通过控制变量法，系统测试 Mistral（7B/13B）与 Qwen（7B/14B）在不同类型 Prompt 下的输出表现，明确两类开源模型的 Prompt 设计偏好、性能瓶颈及优化方向，为开发者使用开源模型编写高效 Prompt 提供实操指南。

二、实验环境与参数设置

（一）硬件环境

服务器：2 台 NVIDIA A100（40GB VRAM）服务器，用于模型加载与推理
辅助设备：32 核 Intel Xeon CPU、256GB DDR4 内存，保障数据预处理与实验日志存储效率

（二）软件环境

操作系统：Ubuntu 22.04 LTS
模型框架：PyTorch 2.1.0、Transformers 4.35.2
推理工具：vLLM 0.2.0（优化模型推理速度，支持批量请求）
评估工具：BLEU（文本生成连贯性）、ROUGE-L（长文本逻辑完整性）、准确率（任务型 Prompt 结果正确性）

（三）模型参数

为排除参数差异对实验结果的干扰，统一设置核心推理参数如下：

参数名称

Temperature	0.7	平衡输出随机性与确定性，避免极端结果
Top-P	0.9	控制词表采样范围，减少低概率词汇生成
Max New Tokens	1024	限制单条输出长度，确保实验效率
Repetition Penalty	1.1	抑制重复文本生成，提升输出多样性

模型	BLEU 分数	ROUGE-L 分数	任务准确率
Mistral-7B	0.72	0.78	82%
Mistral-13B	0.78	0.83	88%
Qwen-7B	0.70	0.76	80%
Qwen-14B	0.80	0.85	90%

模型	BLEU 分数	ROUGE-L 分数	任务准确率
Mistral-7B	0.68	0.73	76%
Mistral-13B	0.75	0.80	85%
Qwen-7B	0.65	0.70	72%
Qwen-14B	0.77	0.82	87%

模型	BLEU 分数	ROUGE-L 分数	任务准确率
Mistral-7B	0.55	0.60	60%
Mistral-13B	0.68	0.72	75%
Qwen-7B	0.52	0.58	58%
Qwen-14B	0.70	0.74	78%

模型	BLEU 分数	ROUGE-L 分数	角色一致性（人工评分）
Mistral-7B	0.62	0.68	70%
Mistral-13B	0.70	0.75	82%
Qwen-7B	0.60	0.65	68%
Qwen-14B	0.73	0.78	85%