基于 llama.cpp 与 Ollama 推理 LFM2.5-1.2B 模型性能测试

LFM2.5-1.2B 模型简介

LFM2.5-1.2B-Instruct 是 Liquid AI 近期推出的开源、轻量级、高性能的通用指令微调 AI 模型。参数量 12 亿，专为在手机、笔记本等端侧设备上高效运行而设计，内存占用仅约 900MB，推理速度极快。

核心特点

高效推理：采用混合架构（LIV 卷积块 + GQA 注意力块），在 CPU/NPU 上实现低延迟、高吞吐量推理，内存占用不到 1GB。
强指令遵循：通过监督微调和强化学习训练，擅长复杂推理、数学计算和工具使用，性能超越同规模模型。
多语言支持：支持中、英、日、韩等八种语言，日语优化版在日语任务上表现突出。
开源免费：所有权重开源，可免费下载用于研究和商业用途。

尝试使用 llama.cpp 推理

在部分云环境中编译 llama.cpp 可能面临 CPU 核数限制，导致推理速度较慢。

下载模型

从模型库下载 GGUF 格式模型文件：

modelscope download --model LiquidAI/LFM2.5-1.2B-Instruct-GGUF --local_dir ./work

编译与推理

参考官方文档编译 llama.cpp。将模型下载到工作目录后，直接使用 llama-cli 进行推理：

llama-cli -m ~/work/LFM2.5-1.2B-Instruct-Q8_0.gguf

实测发现该环境下推理速度较慢（约 0.1 t/s），无法满足流畅交互需求。

使用 Ollama 推理

本机配置为 Windows 10，24 核 CPU，64G 内存，NVIDIA Quadro K4200（4G 显存）。利用 NVIDIA 的 GPU 内存管理技术，主机内存可被 GPU 共享使用。

升级 Ollama

建议升级到最新版本（如 v0.15.2），旧版本可能存在模型下载兼容性问题。

下载与启动

ollama pull lfm2.5-thinking:1.2b
ollama run lfm2.5-thinking:1.2b

示例：Python 8 皇后问题

用户输入： 帮我写个 python 实现 8 皇后放置的程序

模型输出： 以下是用 Python 实现 8 个皇后放置的程序，确保它们不相互攻击的简单解决方案：

def is_safe(board, row, col, queen):
    for r in range(8):
        for c in range(8):
            if board[r][c] == queen or board[r][c] == 1:
                return False
     

 ():
    board = [[  _  ()]  _  ()]
     ():
         row == :
             
         col  ():
             is_safe(board, row, col, ):
                board[row][col] = 
                 backtrack(row + ):
                     
                board[row][col] = 
    backtrack()
     board


board = place_queens()
 row  board:
    (.join((, row)))

基于 llama.cpp 与 Ollama 推理 LFM2.5-1.2B 模型性能测试

LFM2.5-1.2B 模型简介

核心特点

尝试使用 llama.cpp 推理

下载模型

编译与推理

使用 Ollama 推理

升级 Ollama

下载与启动

示例：Python 8 皇后问题

更多推荐文章

相关免费在线工具

物理知识问答

总结

更多推荐文章

相关免费在线工具

基于 llama.cpp 与 Ollama 推理 LFM2.5-1.2B 模型性能测试

LFM2.5-1.2B 模型简介

核心特点

尝试使用 llama.cpp 推理

下载模型

编译与推理

使用 Ollama 推理

升级 Ollama

下载与启动

示例：Python 8 皇后问题

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

物理知识问答

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具