跳到主要内容
百川 2-13B-Chat WebUI v1.0 故障排查手册:6 大常见问题解决 | 极客日志
Python AI 算法
百川 2-13B-Chat WebUI v1.0 故障排查手册:6 大常见问题解决 百川 2-13B-Chat WebUI v1.0 部署后的六大常见问题及解决方案。涵盖网页无法访问(检查服务、端口、防火墙)、响应速度慢(模型加载、GPU 占用、参数设置)、回复中断(Max Tokens、停止标记、显存不足)、内存溢出(OOM 检查、对话历史清理)、服务自动停止(日志分析、Supervisor 配置)以及回答质量下降(模型完整性、参数调优、Prompt 优化)。通过状态检查脚本、日志查看及资源监控命令,可快速定位并修复大部分问题。
SparkGeek 发布于 2026/4/6 更新于 2026/5/21 24 浏览百川 2-13B-Chat WebUI v1.0 故障排查手册
1. 问题一:网页打不开,显示'无法访问此网站'
这是最常见的问题,通常有几种可能的原因。咱们一步步来排查。
1.1 检查服务是否真的在运行
首先,打开终端,运行状态检查脚本:
/root/baichuan2-13b-webui/check.sh
你会看到类似这样的输出:
╔══════════════════════════════════════════════════════════════╗ ║ 百川 2 -13B-Chat WebUI 状态检查 ║ ╚══════════════════════════════════════════════════════════════╝ 【服务状态】 ❌ 未运行 baichuan-webui STOPPED Not started 【端口监听】 ❌ 7860 端口未监听 【GPU 状态】 型号:NVIDIA GeForce RTX 4090 D 显存:500 MiB / 24576 MiB (2.0%) 利用率:0% 【WebUI 访问】 ❌ 不可访问 URL: http://0.0.0.0:7860 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ❌ 发现问题:服务未运行! ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
supervisorctl start baichuan-webui
等个 10-20 秒,再运行一次检查脚本,应该就能看到'运行中'了。
1.2 检查端口是否被占用 有时候服务启动了,但端口被其他程序占用了。检查一下:
netstat -tulpn | grep 7860
tcp 0 0 0.0.0.0:7860 0.0.0.0:* LISTEN 12345/python
说明端口正常监听。如果什么都没输出,或者输出显示的是其他进程,那可能就是端口问题。
supervisorctl start baichuan-webui
supervisorctl stop baichuan-webui
1.3 检查防火墙设置 如果你的服务器有防火墙,可能需要开放 7860 端口:
1.4 检查浏览器缓存和代理
清除浏览器缓存 :按 Ctrl+Shift+Delete(Windows/Linux)或 Cmd+Shift+Delete(Mac)
禁用浏览器扩展 :特别是广告拦截器、安全插件等
检查代理设置 :确保没有设置代理或代理配置正确
尝试无痕模式 :用浏览器的无痕/隐私模式访问
1.5 检查 IP 地址是否正确 如果你在远程服务器上部署,确保你访问的是正确的 IP 地址:
然后在浏览器中输入:http://你的服务器 IP:7860
注意 :如果你在云服务器上,还需要检查安全组规则是否允许 7860 端口入站。
2. 问题二:响应速度慢,等半天才有回复 这个问题最让人着急,明明看到 GPU 在跑,就是不出结果。原因可能有好几种。
2.1 首次加载需要时间 重要提醒 :第一次启动服务或长时间未使用后,模型需要重新加载到 GPU 显存中,这个过程大约需要 30-60 秒。
查看 GPU 显存占用:如果显存占用很低(比如只有 2-3GB),说明模型还没加载
查看日志:模型加载时会有明显的日志输出
Loading model from /root/models/baichuan2-13 b-chat-4 bits... Loading tokenizer... Loading model weights... Model loaded successfully! Time : 32.5s
耐心等待 :首次加载完成后,后续的响应就会快很多(通常 1-3 秒)。
2.2 GPU 被其他任务占用 正常情况应该只看到 baichuan-webui 相关的进程:
+-----------------------------------------------------------------------------+
| Processes:
|
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|
|
| 0 N/A N/A 12345 C .../python baichuan-webui 21000MiB |
+-----------------------------------------------------------------------------+
python 训练脚本
jupyter 笔记本
其他 AI 服务
停止不必要的 GPU 进程
或者重启服务器释放显存
2.3 参数设置不合理导致速度慢
Max Tokens(最大生成长度)设置过大建议 :日常使用设为 512,需要长回答时再临时调高。
默认 512 就够用了
如果设为 2048,生成时间会显著增加
Temperature(温度)设置过低建议 :日常对话设为 0.7,需要稳定输出(如代码生成)时再调低。
温度越低,模型越'谨慎',生成速度可能稍慢
温度 0.1-0.3 时,模型会反复计算最优选择
2.4 服务器资源不足 虽然百川 2-13B-4bits 版本对显存要求不高(约 10GB),但如果服务器整体资源紧张,也会影响速度:
CPU 使用率持续 90% 以上
内存使用率超过 80%
磁盘 IO 等待时间高
关闭其他不必要的服务
增加服务器配置
优化系统参数
2.5 网络延迟问题
使用离你更近的服务器节点
优化网络路由
本地部署(如果条件允许)
3. 问题三:回复中断或不完整 这个问题很常见,明明问题还没回答完,模型就停住了。通常有以下几个原因。
3.1 Max Tokens 设置太小 这是最常见的原因。Max Tokens 限制了模型一次生成的最大长度。
你问:'请详细解释机器学习的工作原理'
Max Tokens 设为 256
模型生成了 250 个 token 后,还剩 6 个 token 的空间,但完整的回答需要 500 个 token
结果:回答在中间被截断了
增加 Max Tokens 值(如从 512 改为 1024 或 2048)
或者让模型继续生成:
3.2 模型遇到停止标记 大语言模型有预设的停止标记(如 <|endoftext|>、`
3.3 显存不足导致中断 虽然 4bits 量化版本显存占用较低,但如果同时运行其他任务,也可能出现显存不足:
减少同时运行的 AI 任务
如果经常出现,考虑升级 GPU
supervisorctl restart baichuan-webui
3.4 请求超时
对于复杂问题,拆分成多个小问题
或者调整服务配置(需要修改代码)
4. 问题四:GPU 内存不足或 OOM(内存溢出) 虽然百川 2-13B-4bits 版本只需要约 10GB 显存,但在某些情况下还是可能遇到内存问题。
4.1 检查当前显存使用 +-----------------------------------------------------------------------------+
| NVIDIA-SMI 535.161.07 Driver Version: 535.161.07 CUDA Version: 12.2 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence -M| Bus-Id Disp.A | Volatile Uncorr . ECC |
| Fan Temp Perf Pwr :Usage/Cap| Memory -Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 NVIDIA RTX 4090 D Off | 00000000:01:00.0 Off | Off |
| 0 % 45C P8 30W / 450W| 10500MiB / 24576MiB | 0 % Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
如果看到显存使用接近 24GB(或你的 GPU 最大显存),说明可能有问题。
4.2 常见的内存问题场景 错误信息:CUDA out of memory. Tried to allocate...
supervisorctl restart baichuan-webui
场景 2:对话历史过长 每次对话,模型都会将历史记录保存在内存中。如果对话轮次太多,可能积累大量 token。
场景 3:批量处理时内存不足 如果你尝试同时处理多个请求,或者输入文本过长。
减少单次输入的文本长度
逐个处理,不要并发
使用流式输出(如果支持)
4.3 预防内存问题的建议
设置使用限制 (如果支持):在服务配置中限制最大显存使用。
使用内存优化技巧 :
及时清理对话历史
避免过长的单次输入
对于长文档,分段处理
5. 问题五:服务自动停止或频繁重启
5.1 检查服务状态和日志 Error: [Errno 98] Address already in use
Error loading model weights: File corrupted
CUDA error : out of memory CUDA error : illegal memory access
5.2 Supervisor 配置问题 Supervisor 是管理服务的工具,配置不当可能导致问题:
[program:baichuan-webui]
command =python app.py
directory =/root/baichuan2-13 b-webui
autostart =true
autorestart =true
startretries =3
stderr_logfile =/root/baichuan2-13 b-webui/logs/error.log
stdout_logfile =/root/baichuan2-13 b-webui/logs/access.log
autorestart=true但 startretries 太小 → 失败几次后就放弃了
日志文件权限问题 → 无法写入日志导致失败
内存限制设置过小 → 进程被系统杀死
5.3 系统资源限制 如果看到 Out of memory: Killed process,说明系统内存不足,触发了 OOM Killer。
增加服务器内存
调整 OOM Killer 参数(谨慎操作)
限制服务内存使用
5.4 定期维护建议
STATUS=$(supervisorctl status baichuan-webui | awk '{print $2}' )
if [ "$STATUS " != "RUNNING" ]; then
echo "百川服务异常!状态:$STATUS "
supervisorctl restart baichuan-webui
fi
6. 问题六:回答质量下降或输出乱码 有时候服务运行正常,但回答质量明显下降,或者出现乱码。
6.1 模型加载不完整 如果模型文件没有完全加载,或者加载过程中出错,可能导致模型性能下降。
grep -A5 -B5 "Loading model" /root/baichuan2-13b-webui/logs/error.log
6.2 参数设置不当
温度太高(>1.5):回答可能随机、混乱
温度太低(<0.1):回答可能重复、缺乏创意
Top-p 太低(<0.5):回答可能过于保守、重复
Top-p 太高(=1.0):可能包含不合适的内容
日常对话:Temperature=0.7, Top-p=0.9
创意写作:Temperature=1.0-1.2, Top-p=0.95
代码生成:Temperature=0.2-0.3, Top-p=0.8
6.3 提示词(Prompt)问题 同样的模型,不同的提问方式,得到的结果可能天差地别。
请用 Python 写一个快速排序算法,要求:
1. 包含详细的注释说明每一步
2. 包含 3 个测试用例
3. 分析时间复杂度和空间复杂度
请将以下英文技术文档翻译成中文,要求:
1. 专业术语翻译准确
2. 保持技术文档的严谨性
3. 语句通顺符合中文表达习惯
[英文文档内容]
请用通俗易懂的方式解释什么是神经网络,要求:
1. 用生活中的例子类比
2. 避免使用复杂数学公式
3. 说明核心思想和工作原理
6.4 编码问题导致乱码 import locale
locale.setlocale(locale.LC_ALL, 'en_US.UTF-8' )
export LANG=en_US.UTF-8
export LC_ALL=en_US.UTF-8
6.5 对话历史污染 如果之前的对话中包含错误信息或混乱内容,可能影响后续回答。
点击'新建对话'开始新的对话
或者手动清除对话历史
(请忽略之前的所有对话,重新开始)我的问题是:...
7. 总结:快速排查流程图 网页打不开?
├─ 服务是否运行? → 否 → 启动服务
│ 是
├─ 端口是否监听? → 否 → 检查端口占用
│ 是
├─ 防火墙是否阻挡? → 是 → 开放端口
│ 否
└─ 浏览器/网络问题? → 是 → 清除缓存/ 检查网络
响应速度慢?
├─ 是否是首次加载? → 是 → 等待 30-60 秒
│ 否
├─ GPU 是否被占用? → 是 → 停止其他任务
│ 否
├─ 参数设置是否合理? → 否 → 调整参数
│ 是
└─ 服务器资源是否充足? → 否 → 优化/升级
回复中断?
├─ Max Tokens 是否太小? → 是 → 增大设置
│ 否
├─ 是否遇到停止标记? → 是 → 使用继续指令
│ 否
├─ 显存是否不足? → 是 → 重启服务/清理历史
│ 否
└─ 是否请求超时? → 是 → 拆分问题/调整配置
内存不足?
├─ 检查当前显存使用 → 接近 100% → 重启服务
│ 正常
├─ 是否有其他进程? → 是 → 停止不必要进程
│ 否
├─ 对话历史是否过长? → 是 → 清理历史
│ 否
└─ 是否批量处理? → 是 → 改为逐个处理
检查状态 :/root/baichuan2-13b-webui/check.sh
查看日志 :tail -f /root/baichuan2-13b-webui/logs/error.log
重启服务 :supervisorctl restart baichuan-webui
检查 GPU :nvidia-smi
最后,如果所有方法都试过了还是不行,可以查看更详细的日志:
大多数问题都能通过重启服务、调整参数、清理资源来解决。百川 2-13B-Chat WebUI v1.0 整体来说还是很稳定的,遇到问题不要慌,按步骤排查,很快就能恢复正常。
相关免费在线工具 加密/解密文本 使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
RSA密钥对生成器 生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
Mermaid 预览与可视化编辑 基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
随机西班牙地址生成器 随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online
Gemini 图片去水印 基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online
curl 转代码 解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online