Whisper 音频转录

优质文章学习记录

11 Apr 2026 — 1 min read

你好呀！今天我们来聊聊如何用 OpenAI 的 Whisper 工具把音频文件变成文字。这东西可厉害了，不管是 podcast、讲座还是自己录的语音，都能轻松转成文本，超方便的！

准备工作 📋

在开始之前，你需要准备好：

Python 3.7 或更高版本（现在大部分电脑都有了）
一点磁盘空间（模型大小从几十MB到几GB不等，看你选哪个）
对啦，还要有网络，因为第一次用需要下载模型

安装 Whisper 🚀

安装超级简单，打开命令行，输入这行代码就搞定：

pip install openai-whisper

等着它自己安装完就好啦，是不是很easy？

使用我们的转录脚本 📝

已经为你准备了一个超级好用的脚本transcribe_audio.py，它可以批量处理音频文件，超省时间！

脚本有啥功能？

支持各种音频格式：mp3、wav、m4a、flac 都没问题
自动创建 transcripts 文件夹放结果
可以选不同大小的模型，满足不同需求
实时显示进度，让你知道到哪一步了
遇到问题会告诉你，不会闷头报错

怎么用呢？

基础操作

打开命令行，进入音频文件所在的文件夹，然后输入：

Read more

主流大模型介绍(GPT、Llama、ChatGLM、Qwen、deepseek)

主流大模型介绍(GPT、Llama、ChatGLM、Qwen、deepseek)

GPT系列模型一、ChatGPT 的本质 * 发布者：OpenAI（2022年11月30日） * 类型：聊天机器人模型，基于自然语言处理技术 * 核心能力：理解语言、生成对话、撰写邮件/文案/代码、翻译等 * 增长数据：2个月用户破1亿，日活约1300万二、GPT 系列模型演进对比模型发布时间参数量核心创新主要局限GPT-12018.061.17亿引入生成式预训练 + Transformer Decoder语言模型单向；需微调才能泛化GPT-22019.0215亿多任务学习 + Zero-shot 能力无监督能力仍有限GPT-32020.051750亿Few-shot 学习 + Sparse Attention成本高、长文本不稳定、内容不可控ChatGPT2022.11基于GPT-3引入 RLHF（人类反馈强化学习）服务不稳定、可能生成错误信息三、核心技术点回顾 1. GPT-1 * 使用单向 Transformer Decoder（

SmolVLA高算力适配：TensorRT加速可行性分析与ONNX导出实操

SmolVLA高算力适配：TensorRT加速可行性分析与ONNX导出实操 1. 项目背景与核心价值 SmolVLA作为一款专为经济实惠机器人技术设计的紧凑型视觉-语言-动作模型，在资源受限环境下展现出了令人印象深刻的性能。这个约5亿参数的模型能够同时处理视觉输入、语言指令和动作输出，为机器人控制提供了端到端的解决方案。在实际部署中，我们经常面临一个关键挑战：如何在保持模型精度的同时，进一步提升推理速度以满足实时控制需求？这就是TensorRT加速技术发挥作用的地方。通过将SmolVLA模型转换为TensorRT引擎，我们有望获得显著的性能提升，特别是在NVIDIA GPU硬件上。本文将带你深入了解SmolVLA模型的TensorRT加速可行性，并提供详细的ONNX导出实操指南，帮助你在自己的机器人项目中实现更高效的推理性能。 2. TensorRT加速技术解析 2.1 TensorRT的核心优势 TensorRT是NVIDIA推出的高性能深度学习推理优化器和运行时库，它通过多种技术手段提升模型推理效率： * 图层融合：将多个连续的操作层合并为单个内核，减少内

【保姆级教程】llama.cpp大模型部署全攻略：CPU/GPU全兼容，小白也能轻松上手！

【保姆级教程】llama.cpp大模型部署全攻略：CPU/GPU全兼容，小白也能轻松上手！

一、简介 * • llama.cpp 是一个在 C/C++ 中实现大型语言模型（LLM）推理的工具 * • 支持跨平台部署，也支持使用 Docker 快速启动 * • 可以运行多种量化模型，对电脑要求不高，CPU/GPU设备均可流畅运行 * • 开源地址参考：https://github.com/ggml-org/llama.cpp • 核心工作流程参考：二、安装与下载模型（Docker方式） 1. 搜索可用模型 • 这里以 qwen3-vl 模型为例，提供了多种量化版本，每种版本的大小不一样，根据自己的电脑性能做选择，如选择（模型+量化标签）：Qwen/Qwen3-VL-8B-Instruct-GGUF:Q8_0 • 可以在huggingface官网中搜索可用的量化模型：https://huggingface.co/models?search=

LLaMA-Factory WebUI 参数说明

LLaMA-Factory WebUI 参数说明

下面是 LLaMA-Factory（以 WebUI / LlamaBoard 最新版本为准）的参数说明文档 LLaMA-Factory WebUI 参数说明（注：本文档基于官方文档、社区教程与源码整理。参见 LLaMA-Factory WebUI 文档与 AiDocZh 的 “WebUI” 部分 (aidoczh.com)） WebUI 通常分为四个主要界面（标签页）： * 训练 (Train / Training) * 评估与预测 (Evaluate / Predict / Chat / Conversation) * 对话 (Chat / Conversation 界面，用于交互式体验) * 导出 (Export) 在训练界面中会展示许多可配置参数，本说明重点在训练 + 导出参数的详解，也会简要提及对话 / 推理相关选项。下面首先给出一个截图参考，然后一步步说明各参数块。 WebUI 界面结构与截图参考