Buzz语音转文字离线免费版安装使用（含Whisper最新模型）

优质文章学习记录

11 Apr 2026 — 2 min read

简介：

Buzz1.2.0（2024年12月24日更新的，是2025年7月最新版本）

Buzz有python编写的，在您的个人计算机上离线转录和翻译音频。由 OpenAI 的 Whisper 提供支持。

应用场景：

歌曲提取歌词，音频/视频提取文字

软件下载（windows为例）：

github下载地址：

Release v1.2.0 · chidiwilliams/buzzhttps://github.com/chidiwilliams/buzz/releases/tag/v1.2.0

文章最后有百度云盘离线下载地址（含模型）

软件安装：

exe文件直接安装即可

软件使用：

当前支持的模型：

如果没有【查看文件位置】

C:\Users\用户\AppData\Local\Buzz\Buzz\Cache\models\whisper

放置到该位置即可

真实使用反馈：

cpu为i5-12400，没有显卡

解析25-30分钟的语音，

使用最小模型，错别字比较多，需要费心的重新编译

使用Small及以上，识别情况就很优秀了，具体还是要看电脑配置和使用场景了。

Buzz1.2.0+模型下载

百度网盘链接：百度网盘请输入提取码buzz百度网盘为您提供文件的网络备份、同步和分享服务。空间大、速度快、安全稳固，支持教育网加速，支持手机端。注册使用百度网盘即可享受免费存储空间https://pan.baidu.com/s/1WCZfCbnw9BQiV-pao8t32Q?pwd=buzz

Read more

Whisper语音识别避坑指南：从安装到部署常见问题全解

Whisper语音识别避坑指南：从安装到部署常见问题全解你是不是也遇到过这样的情况：满怀期待地部署Whisper语音识别服务，结果卡在FFmpeg找不到、GPU显存爆了、端口被占用……别急，这篇文章就是为你准备的。我们不讲大道理，只聊实战中踩过的坑和对应的解决方案。本文基于 Whisper-large-v3 多语言语音识别 Web 服务镜像（由113小贝构建），结合真实部署经验，手把手带你绕开那些让人抓狂的“小问题”。无论你是第一次接触语音识别，还是已经折腾了一整天却始终无法启动服务，这篇避坑指南都能帮你快速上路。 1. 环境准备：别让基础配置拖后腿 1.1 硬件要求不是“建议”，是底线先说清楚：Whisper large-v3 模型对硬件有硬性要求，不是“推荐”那么简单。这个模型参数量高达1.5B，加载一次就要吃掉近3GB显存，推理过程还会持续占用资源。资源最低要求推荐配置GPURTX 3090 (24GB)RTX 4090 D (23GB+)内存16GB32GB存储10GB可用空间SSD

InstructPix2Pix效果实测：结构保留能力 vs Stable Diffusion 图生图对比

InstructPix2Pix效果实测：结构保留能力 vs Stable Diffusion 图生图对比 1. 为什么说InstructPix2Pix是真正的“魔法修图师” 你有没有过这样的经历：想把一张照片里的白天改成夜晚，或者给朋友P一副墨镜，又或者让一张普通街景变成雨天氛围——但打开PS，面对层层叠叠的图层和蒙版，最后只留下满屏困惑？传统图像编辑工具需要你懂色彩曲线、图层混合模式、甚至手绘遮罩；而Stable Diffusion这类图生图模型，又常常让人陷入“写对Prompt像解谜”的困境：多加一个词，画面就崩掉；少写一个细节，AI就自由发挥到千里之外。 InstructPix2Pix不一样。它不把你当设计师，也不把你当咒语学徒，而是直接把你当“导演”——你只需要用日常英语说出想法，它就照着执行，而且几乎不会跑偏。这不是滤镜，不是风格迁移，更不是粗暴重绘。它像一位经验丰富的修图老手，先仔仔细细看清原图里每一条轮廓线、每一个人物姿态、每一处光影关系，再只动你点名要改的那一小块。你让它“add sunglasses”，它不会顺手把人脸拉长、把背景重画一遍；你让它“

【AIGC】ChatGPT 实用技巧：文本与数据的结构化方法全解析

【AIGC】ChatGPT 实用技巧：文本与数据的结构化方法全解析

博客主页： [小ᶻ☡꙳ᵃⁱᵍᶜ꙳]本文专栏: AIGC |ChatGPT 文章目录 * 💯前言 * 💯中文排版序号 * 1. 一级标题（First-Level Title） * 2. 二级标题（Second-Level Title） * 3. 三级标题（Third-Level Title） * 4. 四级标题（Fourth-Level Title） * 💯Markdown 语法 * 一级标题（First-Level Heading） * 二级标题（Second-Level Heading） * 子标题（Subheadings） * 列表（Lists） * 无序列表 * 有序列表 * 加粗和斜体（Bold and Italics） * 加粗 * 斜体 * 💯编程语法也是结构化 * YAML 语法结构的例子 * 1. 层级关系（

llama.cpp加载多模态gguf模型

llama.cpp预编译包还不支持cuda12.6 llama.cpp的编译，也有各种坑 llama.cpp.python的也需要编译 llama.cpp命令行加载多模态模型 llama-mtmd-cli -m Qwen2.5-VL-3B-Instruct-q8_0.gguf --mmproj Qwen2.5-VL-3B-Instruct-mmproj-f16.gguf -p "Describe this image." --image ./car-1.jpg **模型主gguf文件要和mmporj文件从一个库里下载，否则会有兼容问题，建议从ggml的官方库里下载 Multimodal GGUFs官方库 llama.cpp.python加载多模态模型看官方文档要使用LlamaChatHandler类，官方已经写好了不少多模态模型的加载类，比如qwen2.5vl的写法： from llama_cpp import Llama