Whisper 音频转录

你好呀!今天我们来聊聊如何用 OpenAI 的 Whisper 工具把音频文件变成文字。这东西可厉害了,不管是 podcast、讲座还是自己录的语音,都能轻松转成文本,超方便的!

准备工作 📋

在开始之前,你需要准备好:

  • Python 3.7 或更高版本(现在大部分电脑都有了)
  • 一点磁盘空间(模型大小从几十MB到几GB不等,看你选哪个)
  • 对啦,还要有网络,因为第一次用需要下载模型

安装 Whisper 🚀

安装超级简单,打开命令行,输入这行代码就搞定:

pip install openai-whisper 

等着它自己安装完就好啦,是不是很easy?

使用我们的转录脚本 📝

已经为你准备了一个超级好用的脚本transcribe_audio.py,它可以批量处理音频文件,超省时间!

脚本有啥功能?

  • 支持各种音频格式:mp3、wav、m4a、flac 都没问题
  • 自动创建 transcripts 文件夹放结果
  • 可以选不同大小的模型,满足不同需求
  • 实时显示进度,让你知道到哪一步了
  • 遇到问题会告诉你,不会闷头报错

怎么用呢?

基础操作

打开命令行,进入音频文件所在的文件夹,然后输入:

Read more

主流大模型介绍(GPT、Llama、ChatGLM、Qwen、deepseek)

主流大模型介绍(GPT、Llama、ChatGLM、Qwen、deepseek)

GPT系列模型 一、ChatGPT 的本质 * 发布者:OpenAI(2022年11月30日) * 类型:聊天机器人模型,基于自然语言处理技术 * 核心能力:理解语言、生成对话、撰写邮件/文案/代码、翻译等 * 增长数据:2个月用户破1亿,日活约1300万 二、GPT 系列模型演进对比 模型发布时间参数量核心创新主要局限GPT-12018.061.17亿引入生成式预训练 + Transformer Decoder语言模型单向;需微调才能泛化GPT-22019.0215亿多任务学习 + Zero-shot 能力无监督能力仍有限GPT-32020.051750亿Few-shot 学习 + Sparse Attention成本高、长文本不稳定、内容不可控ChatGPT2022.11基于GPT-3引入 RLHF(人类反馈强化学习)服务不稳定、可能生成错误信息 三、核心技术点回顾 1. GPT-1 * 使用单向 Transformer Decoder(

SmolVLA高算力适配:TensorRT加速可行性分析与ONNX导出实操

SmolVLA高算力适配:TensorRT加速可行性分析与ONNX导出实操 1. 项目背景与核心价值 SmolVLA作为一款专为经济实惠机器人技术设计的紧凑型视觉-语言-动作模型,在资源受限环境下展现出了令人印象深刻的性能。这个约5亿参数的模型能够同时处理视觉输入、语言指令和动作输出,为机器人控制提供了端到端的解决方案。 在实际部署中,我们经常面临一个关键挑战:如何在保持模型精度的同时,进一步提升推理速度以满足实时控制需求?这就是TensorRT加速技术发挥作用的地方。通过将SmolVLA模型转换为TensorRT引擎,我们有望获得显著的性能提升,特别是在NVIDIA GPU硬件上。 本文将带你深入了解SmolVLA模型的TensorRT加速可行性,并提供详细的ONNX导出实操指南,帮助你在自己的机器人项目中实现更高效的推理性能。 2. TensorRT加速技术解析 2.1 TensorRT的核心优势 TensorRT是NVIDIA推出的高性能深度学习推理优化器和运行时库,它通过多种技术手段提升模型推理效率: * 图层融合:将多个连续的操作层合并为单个内核,减少内

【保姆级教程】llama.cpp大模型部署全攻略:CPU/GPU全兼容,小白也能轻松上手!

【保姆级教程】llama.cpp大模型部署全攻略:CPU/GPU全兼容,小白也能轻松上手!

一、简介 * • llama.cpp 是一个在 C/C++ 中实现大型语言模型(LLM)推理的工具 * • 支持跨平台部署,也支持使用 Docker 快速启动 * • 可以运行多种量化模型,对电脑要求不高,CPU/GPU设备均可流畅运行 * • 开源地址参考:https://github.com/ggml-org/llama.cpp • 核心工作流程参考: 二、安装与下载模型(Docker方式) 1. 搜索可用模型 • 这里以 qwen3-vl 模型为例,提供了多种量化版本,每种版本的大小不一样,根据自己的电脑性能做选择,如选择(模型+量化标签):Qwen/Qwen3-VL-8B-Instruct-GGUF:Q8_0 • 可以在huggingface官网中搜索可用的量化模型:https://huggingface.co/models?search=

LLaMA-Factory WebUI 参数说明

LLaMA-Factory WebUI 参数说明

下面是 LLaMA-Factory(以 WebUI / LlamaBoard 最新版本为准) 的参数说明文档 LLaMA-Factory WebUI 参数说明 (注:本文档基于官方文档、社区教程与源码整理。参见 LLaMA-Factory WebUI 文档与 AiDocZh 的 “WebUI” 部分 (aidoczh.com)) WebUI 通常分为四个主要界面(标签页): * 训练 (Train / Training) * 评估与预测 (Evaluate / Predict / Chat / Conversation) * 对话 (Chat / Conversation 界面,用于交互式体验) * 导出 (Export) 在训练界面中会展示许多可配置参数,本说明重点在训练 + 导出参数的详解,也会简要提及对话 / 推理相关选项。 下面首先给出一个截图参考,然后一步步说明各参数块。 WebUI 界面结构与截图参考