LLM 大模型技术实战：热门开源模型对比与选型

大语言模型的特点和能力

LLM（Large Language Model，大型语言模型）是指那些规模庞大、参数数量众多的深度神经网络模型，用于理解和生成自然语言文本。在自然语言处理（NLP）领域有着广泛的应用，因其强大的语言理解和生成能力，能够处理各种复杂的文本任务。

模型链接	模型描述
OpenSora	高效复现类 Sora 视频生成的完全开源方案
GROK	3140 亿参数的混合专家模型，迄今参数量最大的开源 LLM
Gemma	谷歌商场开源模型 2B，7B 免费商用，开源第一易主了
Mistral	Mistral AI 的突破性大模型，超越 GPT3.5，重新定义人工智能性能和多样性
Mistral7B	'欧洲 OpenAI'的'最强 7B 开源模型'，全面超越 13B 的 Llama2
LLama2	Open Meta 带着可商用开源的羊驼 2 模型来了~
LLama	Meta 开源指令微调 LLM，规模 70 亿到 650 亿不等
WizardLM	微软新发布 13B，登顶 AlpacaEval 开源模型 Top3，使用 ChatGPT 对指令进行复杂度进化微调 LLama2
Falcon	阿联酋技术研究所推出，3.5 万亿 token 训练，性能直接碾压 LLaMA2
Vicuna	Alpaca 前成员等开源以 LLama13B 为基础使用 ShareGPT 指令微调的模型，提出了用 GPT4 来评测模型效果
OpenChat	80k ShareGPT 对话微调 LLama-2 13B 开源模型中的战斗机
Guanaco	LLama 7B 基座，在 alpaca52K 数据上加入 534K 多语言指令数据微调
MPT	MosaicML 开源的预训练 + 指令微调的新模型，可商用，支持 84k tokens 超长输入
RedPajama	RedPajama 项目既开源预训练数据后开源 3B，7B 的预训练 + 指令微调模型
koala	使用 alpaca、HC3 等开源指令集+ShareGPT 等 ChatGPT 数据微调 llama，在榜单上排名较高
ChatLLaMA	基于 RLHF 微调了 LLaMA
Alpaca	斯坦福开源的使用 52k 数据在 7B 的 LLaMA 上微调得到
Alpaca-lora	LORA 微调的 LLaMA
Dromedary	IBM self-aligned model with the LLaMA base
ColossalChat	HPC-AI Tech 开源的 Llama+RLHF 微调
MiniGPT4	Vicuna+BLIP2 文本视觉融合
StackLLama	LLama 使用 Stackexchange 数据+SFT+RL
Amazon Titan	亚马逊在 aws 上增加自家大模型
OPT-IML	Meta 复刻 GPT3，up to 175B, 不过效果并不及 GPT3
Bloom	BigScience 出品，规模最大 176B
BloomZ	BigScience 出品，基于 Bloom 微调

模型链接	模型描述
BayLing	中科院开源，性能媲美 GPT-3.5，基于 LLama7B/13B，增强的语言对齐的英语/中文大语言模型
XWin-LM	一款基于 Llama2 微调的语言模型，成功在斯坦福 AlpacaEval 上击败了 GPT-4，成为新的榜首模型
XVERSE-256K	最大支持 256K 的上下文窗口长度，约 25w 字的输入内容，可以协助进行文献总结、报告分析等任务
ChatGLM3	智谱 AI 训练的第三代大型语言模型，它不仅能理解和生成人类语言，还能执行代码、调用工具，并以 markdown 格式进行响应
ChatGLM	清华开源的、支持中英双语的对话语言模型，使用了代码训练，指令微调和 RLHF
Orion-14B-Base	具有 140 亿参数的多语种大模型，该模型在一个包含 2.5 万亿 token 的多样化数据集上进行了训练，涵盖了中文、英语、日语、韩语等多种语言。
Baichuan2	百川第二代也出第二个版本了，提供了 7B/13B Base 和 chat 的版本
Baichuan	百川智能开源 7B 大模型可商用免费
Qwen1-7B+14B+70B	阿里开源，可商用，通义千问 7B,14B,70B Base 和 chat 模型
InternLM2 7B+20B	商汤的书生模型 2 支持 200K
DeepSeek	深度求索发布的 7B，67B 大模型
LLama2-chinese	没等太久中文预训练微调后的 llama2 它来了~
Chinese-LLaMA-Alpaca	哈工大中文指令微调的 LLaMA
Moss	为复旦正名！开源了预训练，指令微调的全部数据和模型。可商用
InternLM	书生浦语在过万亿 token 数据上训练的多语千亿参数基座模型
Aquila2	智源更新 Aquila2 模型系列包括全新 34B
Aquila	智源开源 7B 大模型可商用免费
UltraLM 系列	面壁智能开源 UltraLM13B，奖励模型 UltraRM，和批评模型 UltraCM
PandaLLM	LLAMA2 上中文 wiki 继续预训练+COIG 指令微调
Wombat-7B	达摩院开源无需强化学习使用 RRHF 对齐的语言模型，alpaca 基座
TigerBot	虎博开源了 7B 180B 的模型以及预训练和微调语料
Luotuo-Chinese-LLM	冷子昂@商汤科技，陈启源@华中师范大学以及李鲁鲁@商汤科技发起的中文大语言模型开源项目，包含了一系列大语言模型、数据、管线和应用
OpenBuddy	Llama 多语言对话微调模型
Chinese Vincuna	LLama 7B 基座，使用 Belle+Guanaco 数据训练
Baize	使用 100k self-chat 对话数据微调的 Llama
BELLE	使用 ChatGPT 生成数据对开源模型进行中文优化
Chatyuan	chatgpt 出来后最早的国内开源对话模型，T5 架构是下面 PromptCLUE 的衍生模型
PromptCLUE	多任务 Prompt 语言模型
PLUG	阿里达摩院发布超大规模语言模型 PLUG，上能写诗词歌赋、下能对答如流
CPM2.0	智源发布 CPM2.0

模型链接

模型描述

BayLing

中科院开源，性能媲美 GPT-3.5，基于 LLama7B/13B，增强的语言对齐的英语/中文大语言模型

XWin-LM

一款基于 Llama2 微调的语言模型，成功在斯坦福 AlpacaEval 上击败了 GPT-4，成为新的榜首模型

XVERSE-256K

最大支持 256K 的上下文窗口长度，约 25w 字的输入内容，可以协助进行文献总结、报告分析等任务

ChatGLM3

智谱 AI 训练的第三代大型语言模型，它不仅能理解和生成人类语言，还能执行代码、调用工具，并以 markdown 格式进行响应

ChatGLM

清华开源的、支持中英双语的对话语言模型，使用了代码训练，指令微调和 RLHF

Orion-14B-Base

具有 140 亿参数的多语种大模型，该模型在一个包含 2.5 万亿 token 的多样化数据集上进行了训练，涵盖了中文、英语、日语、韩语等多种语言。

Baichuan2

百川第二代也出第二个版本了，提供了 7B/13B Base 和 chat 的版本

Baichuan

百川智能开源 7B 大模型可商用免费

Qwen1-7B+14B+70B

阿里开源，可商用，通义千问 7B,14B,70B Base 和 chat 模型

InternLM2 7B+20B

商汤的书生模型 2 支持 200K

DeepSeek

深度求索发布的 7B，67B 大模型

LLama2-chinese

没等太久中文预训练微调后的 llama2 它来了~

Chinese-LLaMA-Alpaca

哈工大中文指令微调的 LLaMA

Moss

为复旦正名！开源了预训练，指令微调的全部数据和模型。可商用

InternLM

书生浦语在过万亿 token 数据上训练的多语千亿参数基座模型

Aquila2

智源更新 Aquila2 模型系列包括全新 34B

Aquila

智源开源 7B 大模型可商用免费

UltraLM 系列

面壁智能开源 UltraLM13B，奖励模型 UltraRM，和批评模型 UltraCM

PandaLLM

LLAMA2 上中文 wiki 继续预训练+COIG 指令微调

Wombat-7B

达摩院开源无需强化学习使用 RRHF 对齐的语言模型，alpaca 基座

TigerBot

虎博开源了 7B 180B 的模型以及预训练和微调语料

Luotuo-Chinese-LLM

冷子昂@商汤科技，陈启源@华中师范大学以及李鲁鲁@商汤科技发起的中文大语言模型开源项目，包含了一系列大语言模型、数据、管线和应用

OpenBuddy

Llama 多语言对话微调模型

Chinese Vincuna

LLama 7B 基座，使用 Belle+Guanaco 数据训练

Baize

使用 100k self-chat 对话数据微调的 Llama

BELLE

使用 ChatGPT 生成数据对开源模型进行中文优化

Chatyuan

chatgpt 出来后最早的国内开源对话模型，T5 架构是下面 PromptCLUE 的衍生模型

PromptCLUE

多任务 Prompt 语言模型

PLUG

阿里达摩院发布超大规模语言模型 PLUG，上能写诗词歌赋、下能对答如流

CPM2.0

智源发布 CPM2.0

LLM 大模型技术实战：热门开源模型对比与选型

大语言模型的特点和能力

1.1 主要特点

架构特点

参数规模

预训练与微调

1.2 大语言模型六大能力

1. 生成能力

2. 总结能力

3. 提取能力

4. 分类能力

5. 检索能力

6. 改写能力

最新开源大语言模型

1. LLaMA 2

2. BLOOM

3. Falcon 180B

4. OPT-175B

5. XGen-7B

6. GPT-NeoX 和 GPT-J

7. Vicuna 13-B

8. CodeGeeX

9. CodeGen

10. ChatGLM & VisualGLM

选择适合你需求的开源 LLM

3.1 开源框架选型案例参考

Stage1 预训练

Stage2 监督微调

Stage3 对齐 (LLaMA + FT + RHLF)

3.2 选择适合你需求的开源 LLM

附：国外开源模型

附：国内开源模型

硬件与部署建议

更多推荐文章

相关免费在线工具

LLM 大模型技术实战：热门开源模型对比与选型

大语言模型的特点和能力

1.1 主要特点

架构特点

参数规模

预训练与微调

1.2 大语言模型六大能力

1. 生成能力

2. 总结能力

3. 提取能力

4. 分类能力

5. 检索能力

6. 改写能力

最新开源大语言模型

1. LLaMA 2

2. BLOOM

3. Falcon 180B

4. OPT-175B

5. XGen-7B

6. GPT-NeoX 和 GPT-J

7. Vicuna 13-B

8. CodeGeeX

9. CodeGen

10. ChatGLM & VisualGLM

选择适合你需求的开源 LLM

3.1 开源框架选型案例参考

Stage1 预训练

Stage2 监督微调

Stage3 对齐 (LLaMA + FT + RHLF)

3.2 选择适合你需求的开源 LLM

附：国外开源模型

附：国内开源模型

硬件与部署建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具