LFM2-1.2B：面向边缘设备的混合模型整理

LFM2-1.2B 模型

一、模型概述

LFM2 是 Liquid AI 推出的一组面向边缘设备的混合模型，重点放在质量、速度和内存占用的平衡上。这次公开的后训练检查点包括 3.5 亿、7 亿和 12 亿参数三个版本。它们更像是给端侧场景准备的通用底座，而不是一上来就追求'大而全'。

这组模型的几个特点比较直接：

训练和推理都快，官方给出的说法是训练速度比上一代提升 3 倍，CPU 上的解码和预填充速度是 Qwen3 的 2 倍。
在知识、数学、指令遵循和多语言等基准上，表现超过了同尺寸的其他模型。
架构上走的是混合液体模型路线，结合了乘法门控和短卷积。
部署面比较宽，CPU、GPU、NPU 都能跑，手机、笔记本、车载设备都在目标范围内。

二、模型细节

如果只看参数规模，LFM2 并不适合拿来硬拼知识密度更高的任务。更实际的做法是围绕具体场景做微调，尤其是代理任务、数据提取、RAG、创意写作和多轮对话这类需求。它不是那种'开箱就能打所有题'的模型，范围收窄一点反而更顺手。对知识密集型任务或需要编程能力的任务，官方也不建议把它当主力。

模型参数

属性	值
参数数量	1,170,340,608
层数	16（10 个卷积层 +6 个注意力层）
上下文长度	32,768 个标记
词汇表大小	65,536
精度	bfloat16
训练预算	10 万亿个标记

许可证

LFM2 采用 LFM 开放许可证 v1.0。

支持语言

支持英语、阿拉伯语、中文、法语、德语、日语、韩语和西班牙语。

生成参数

官方推荐的生成参数是：

temperature=0.3
min_p=0.15
repetition_penalty=1.05

聊天模板

LFM2 使用的是接近 ChatML 的聊天模板，示例如下：

在 Hugging Face transformers 里，可以直接用 apply_chat_template() 应用这个模板。

工具使用

工具调用分四步：

函数定义：把 JSON 函数定义放在 <|tool_list_start|> 和 <|tool_list_end|> 之间，通常写在系统提示里。
函数调用：助手输出类似 Python 的调用列表，放在 <|tool_call_start|> 和 <|tool_call_end|> 之间。
函数执行：执行调用后，把结果作为'工具'角色返回，放在 <|tool_response_start|> 和 <|tool_response_end|> 之间。
最终答案：模型根据工具结果，用纯文本回答用户问题。

对话示例：

模型	MMLU	GPQA	IFEval	IFBench	GSM8K	MGSM	MMMLU
LFM2-350M	43.43	27.46	65.12	16.41	30.1	29.52	37.99
LFM2-700M	49.9	28.48	72.23	20.56	46.4	45.36	43.28
LFM2-1.2B	55.23	31.47	74.89	20.7	58.3	55.04	46.73
Qwen3-0.6B	44.93	22.14	64.24	19.75	36.47	41.28	30.84
Qwen3-1.7B	59.11	27.72	73.98	21.27	51.4	66.56	46.51
Llama-3.2-1B-Instruct	46.6	28.84	52.39	16.86	35.71	29.12	38.15
gemma-3-1b-it	40.08	21.07	62.9	17.72	59.59	43.6	34.43

LFM2-1.2B：面向边缘设备的混合模型整理

LFM2-1.2B 模型

一、模型概述

二、模型细节

模型参数

许可证

支持语言

生成参数

聊天模板

工具使用

更多推荐文章

相关免费在线工具

架构

预训练数据混合

训练方法

三、如何运行 LFM2

四、如何微调 LFM2

五、性能表现

1. 自动化基准测试

2. LLM-as-a-Judge

3. 推理性能

六、核心技术汇总

更多推荐文章

相关免费在线工具

LFM2-1.2B：面向边缘设备的混合模型整理

LFM2-1.2B 模型

一、模型概述

二、模型细节

模型参数

许可证

支持语言

生成参数

聊天模板

工具使用

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

架构

预训练数据混合

训练方法

三、如何运行 LFM2

四、如何微调 LFM2

五、性能表现

1. 自动化基准测试

2. LLM-as-a-Judge

3. 推理性能

六、核心技术汇总

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具