看论文看到眼睛发酸的时候,我总想:要是有人给我念出来就好了。后来发现了 Audio Pixel Studio,一个基于 Streamlit 的小工具,调用了微软 Edge-TTS,能把文本转成质量不错的语音。它界面清爽,部署简单,很适合在学术场景里减轻阅读负担。
它能做什么
核心就两件事:文字转语音,以及简单的人声分离。
语音合成用的是 Edge-TTS 引擎。这引擎支持一堆语言(中、英、法、德、日…),音色也多。学术文献那种大段技术描述,用'云希'听起来挺专业;如果想长时间听,把语速调慢 10%,耳朵不那么累。英文内容用 Jenny 的声音,发音准确,没什么机械感。
人声分离是集成的简易版 UVR5,从讲座录音里把讲者声音抽出来,或者从视频里提取解说词,偶尔用用很顺手。
我会怎么用
读论文
把论文的文本粘进去,选音色、语速,合成音频。听完一遍,再回头精读,理解速度快不少。技术性强的部分可以把语速再放慢些,给大脑一点处理时间。通勤或做家务时串起几篇论文的概述,比干坐着硬看效率高。
制作语音摘要
文献调研时,把每篇的标题、作者、核心结论整理成一段连贯文字,让 Audio Pixel Studio 生成音频。我通常按主题或编号命名文件,存成一个'可听文献库',碎片时间刷几篇,比单纯扫列表印象深。
模板大概是这样的:
文献编号:001
标题:深度学习在医学影像分析中的应用进展
作者:张明等,2023年
发表期刊:医学人工智能学报
核心内容:本文综述了……
主要结论:……
演讲和教学辅助
把演讲稿生成语音,对照着听,能发现书面语里拗口或不自然的地方。做在线课程时,把讲义转成音频,和幻灯片时间轴对齐,语速比正常慢 10% – 20%,学生听得更舒服。多语言场景下,我试过把中文内容转英文语音,让外国合作者预览演讲大意,效果还行。
怎么搭起来
环境要求很简单:Python 3.8+,网络稳定,内存够 4G。
git clone https://github.com/your-repo/audio-pixel-studio.git
cd audio-pixel-studio
pip install -r requirements.txt
streamlit run app.py
然后浏览器打开 http://localhost:8501 就能用。
核心配置在 app.py 里可以改。比如音色列表:
VOICE_OPTIONS = {
"zh-CN-XiaoxiaoNeural": "晓晓(中文)",
"zh-CN-YunxiNeural": "云希(中文)",
"zh-CN-YunyangNeural": "云扬(中文)",
"en-US-JennyNeural": "Jenny(英文)",
"en-US-GuyNeural": "Guy(英文)",
# 更多音色...
}
RATE_RANGE = (-50, 50)
我一般用 YunyangNeural 读中文技术论文,语速设 -10;YunxiNeural 读摘要,默认语速;英文内容用 JennyNeural,语速 0。
如果要批量处理一堆文献,可以写个简单脚本:
os
subprocess
text_files = [, , ]
output_dir =
os.path.exists(output_dir):
os.makedirs(output_dir)
text_file text_files:
(text_file, , encoding=) f:
content = f.read()
output_file = os.path.join(output_dir, )

