如何下载、安装whisper、faster_whisper?

1、模型种类

whisper:有很多模型:tiny、base、small、medium、large等

faster_whisper:模型种类与whisper类似

2、模型安装

特别注意:whisper和faster_whisper中的模型,有两种获得方式。

①在网址:https://github.com/openai/whisper上有提示:pip install -U openai-whisper,下载结果为  .pt文件。在网址:https://github.com/SYSTRAN/faster-whisper上有提示:pip install faster-whisper,下载结果为.pt文件

②在网址:https://huggingface.co/,进行搜索 whisper,根据提示,可以下载 large-v3和large-v3-turbo,下载结果为文件,与①不同(特别注意)

3.模型运行

①按照①方法下载的模型:运行代码参考网址:https://github.com/openai/whisperhttps://github.com/openai/whisper ,示例如下:

import whisper

model = whisper.load_model("turbo")

# load audio and pad/trim it to fit 30 seconds
audio = whisper.load_audio("audio.mp3")
audio = whisper.pad_or_trim(audio)

# make log-Mel spectrogram and move to the same device as the model
mel = whisper.log_mel_spectrogram(audio, n_mels=model.dims.n_mels).to(model.device)

# detect the spoken language
_, probs = model.detect_language(mel)
print(f"Detected language: {max(probs, key=probs.get)}")

# decode the audio
options = whisper.DecodingOptions()
result = whisper.decode(model, mel, options)

# print the recognized text
print(result.text)

以上代码,要求# load audio and pad/trim it to fit 30 seconds,提示:whisper模型要求一句话进行识别,如果音频时间太短,可能识别结果不准确,具体请自行尝试。

②按照①方法下载的模型:运行代码参考网址:https://github.com/SYSTRAN/faster-whisperhttps://github.com/SYSTRAN/faster-whisper ,示例如下:

from faster_whisper import WhisperModel

model_size = "large-v3"

# Run on GPU with FP16
model = WhisperModel(model_size, device="cuda", compute_type="float16")

# or run on GPU with INT8
# model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")
# or run on CPU with INT8
# model = WhisperModel(model_size, device="cpu", compute_type="int8")

segments, info = model.transcribe("audio.mp3", beam_size=5)

print("Detected language '%s' with probability %f" % (info.language, info.language_probability))

for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

以上代码,model=WhisperModel(...),可以指定cuda编号,以便合理利用资源。

③按照②方法下载的模型,可以参考vllm网址:https://github.com/vllm-project/vllmhttps://github.com/vllm-project/vllm

vllm框架中的whisper模型和faster_whisper模型一定是来自huggingface。

关于vllm安装踩坑问题,以后发布。

Read more

SteamVR Unity插件:为什么它是VR开发的首选解决方案

在当今快速发展的虚拟现实领域,SteamVR Unity插件以其卓越的多平台兼容性和强大的功能集成,成为了众多开发者的首选工具。这款由Valve官方维护的插件不仅简化了VR开发流程,更提供了完整的输入处理和交互系统,让开发者能够专注于创造沉浸式体验而非底层技术细节。 【免费下载链接】steamvr_unity_pluginSteamVR Unity Plugin - Documentation at: https://valvesoftware.github.io/steamvr_unity_plugin/ 项目地址: https://gitcode.com/gh_mirrors/st/steamvr_unity_plugin 快速启动:五分钟完成环境搭建 准备工作清单 * Unity编辑器:5.4及以上版本,推荐使用2019 LTS * SteamVR运行时:确保从Steam平台正确安装 * 插件获取:通过GitCode仓库获取最新版本 安装步骤详解 第一步:获取插件源码 git clone

高飞团队新作!基于高阶CBF的端到端无人机,实现7.5m/s丛林穿越,突破RL安全瓶颈

高飞团队新作!基于高阶CBF的端到端无人机,实现7.5m/s丛林穿越,突破RL安全瓶颈

「强化学习高速避障新范式」 目录 01  主要方法  1. 训练阶段:基于物理先验的奖励塑形 1. Dijkstra全局引导奖励 2. 基于控制障碍函数的安全惩罚  2. 部署阶段:基于高阶控制障碍函数的实时滤波 02  实验结果  1.仿真训练与消融实验  2.基准测试  3.实机飞行验证 03  总结 在无人机高速避障领域,Ego-Planner等传统的模块化规划方法受限于感知-规划-控制的累积延迟,往往难以兼顾高速与安全;而RL等纯端到端的强化学习虽然敏捷,却因缺乏理论上的安全保障而被视为黑盒。 浙江大学高飞老师团队的这项工作,最令人振奋之处在于巧妙地构建了一套混合架构。 * 在训练阶段,利用 Dijkstra 势场 引导 RL 智能体跳出局部极小值陷阱 ,实现了全局可达性; * 在部署阶段,则引入了基于 高阶控制障碍函数(HOCBF)的安全滤波器,将神经网络输出的动作实时投影到可行域内。 这种设计不仅在数学上给出了碰撞避免的严谨证明,更在实测中实现了高达 7.5m/s

Stable Diffusion【实战技巧】:利用Reference Only实现多场景人脸一致

1. 为什么我们需要人脸一致性技术 在AI绘画创作中,最让人头疼的问题之一就是无法保持角色形象的一致性。想象一下,你正在为小说创作插图,或者为游戏设计角色,每次生成的图片中人物长相都不一样,这简直是一场灾难。我刚开始用Stable Diffusion时就经常遇到这个问题,生成十张图能有十张不同的脸,根本没法用在连续性的创作中。 传统方法中,固定Seed值是最简单的尝试。我实测过这个方法,确实能让生成的人物看起来相似,但问题在于它会把整个画面都固定住 - 包括姿势、背景、服装所有细节。这就好比拍照时用了同样的底片,只是稍微调了下颜色,完全达不到"同一个人在不同场景"的需求。 LORA模型是另一个常见选择,但实际操作中我发现几个痛点:首先,训练一个高质量的LORA需要大量素材和调参经验,对新手很不友好;其次,现成的LORA模型效果参差不齐,很多模型即使把权重调到1,生成的脸还是会有明显差异。更不用说当你想混合多个LORA特征时,结果往往惨不忍睹。 2. Reference Only功能的核心优势 ControlNet的Reference Only功能简直是解决这个痛点的神器。它

探索RISC-V处理器FPGA实现:高性能开源核心的硬件部署实践

探索RISC-V处理器FPGA实现:高性能开源核心的硬件部署实践 【免费下载链接】XiangShanOpen-source high-performance RISC-V processor 项目地址: https://gitcode.com/GitHub_Trending/xia/XiangShan 在嵌入式系统开发中,如何快速验证RISC-V架构的设计创新?如何在FPGA平台上实现高性能处理器原型?这些问题一直困扰着硬件工程师。本文将以香山(XiangShan)开源处理器为研究对象,通过实验方式探索基于FPGA的RISC-V部署与验证全流程,为开源处理器的硬件实现提供实践参考。 环境适配指南:从源码到FPGA原型的准备工作 开发环境配置 香山处理器采用Chisel语言(硬件构造语言)编写,需要先配置Scala开发环境。以下是基础环境准备步骤: # 克隆项目代码(适用场景:首次获取香山源码) git clone https://gitcode.com/GitHub_Trending/xia/XiangShan # 进入项目目录 cd XiangShan # 安装项目依赖