LFM2.5-1.2B 模型简介
LFM2.5-1.2B-Instruct 是 Liquid AI 近期推出的开源、轻量级、高性能的通用指令微调 AI 模型。参数量 12 亿,专为在手机、笔记本等端侧设备上高效运行而设计,内存占用仅约 900MB,推理速度极快。
核心特点
- 高效推理:采用混合架构(LIV 卷积块 + GQA 注意力块),在 CPU/NPU 上实现低延迟、高吞吐量推理,内存占用不到 1GB。
- 强指令遵循:通过监督微调和强化学习训练,擅长复杂推理、数学计算和工具使用,性能超越同规模模型。
- 多语言支持:支持中、英、日、韩等八种语言,日语优化版在日语任务上表现突出。
- 开源免费:所有权重开源,可免费下载用于研究和商业用途。
尝试使用 llama.cpp 推理
在部分云环境中编译 llama.cpp 可能面临 CPU 核数限制,导致推理速度较慢。
下载模型
从模型库下载 GGUF 格式模型文件:
modelscope download --model LiquidAI/LFM2.5-1.2B-Instruct-GGUF --local_dir ./work
编译与推理
参考官方文档编译 llama.cpp。将模型下载到工作目录后,直接使用 llama-cli 进行推理:
llama-cli -m ~/work/LFM2.5-1.2B-Instruct-Q8_0.gguf
实测发现该环境下推理速度较慢(约 0.1 t/s),无法满足流畅交互需求。
使用 Ollama 推理
本机配置为 Windows 10,24 核 CPU,64G 内存,NVIDIA Quadro K4200(4G 显存)。利用 NVIDIA 的 GPU 内存管理技术,主机内存可被 GPU 共享使用。
升级 Ollama
建议升级到最新版本(如 v0.15.2),旧版本可能存在模型下载兼容性问题。
下载与启动
ollama pull lfm2.5-thinking:1.2b
ollama run lfm2.5-thinking:1.2b
示例:Python 8 皇后问题
用户输入: 帮我写个 python 实现 8 皇后放置的程序
模型输出: 以下是用 Python 实现 8 个皇后放置的程序,确保它们不相互攻击的简单解决方案:
def is_safe(board, row, col, queen):
for r in range(8):
for c in range(8):
if board[r][c] == queen or board[r][c] == 1:
return False
():
board = [[ _ ()] _ ()]
():
row == :
col ():
is_safe(board, row, col, ):
board[row][col] =
backtrack(row + ):
board[row][col] =
backtrack()
board
board = place_queens()
row board:
(.join((, row)))

