StructBERT WebUI 实战教程:用 remove_duplicates 函数实现万级评论去重脚本
产品上线后,用户评论数据量大且重复率高。简单的字符串匹配无法识别语义相同的评论(如'很好用'与'非常好用'),导致数据分析困难并浪费存储空间。本文介绍基于 StructBERT WebUI 接口,使用 Python 编写不到 50 行的脚本,实现万级评论的语义去重。
1. 为什么选择 StructBERT 做评论去重?
1.1 传统方法的局限性
- 字符串完全匹配:只能找出完全一样的评论,修改个别字即失效。
- 关键词匹配:复杂语境下容易漏判。
- 编辑距离:计算量大且对语义理解有限。
1.2 StructBERT 的优势
- 语义理解:基于上下文理解句意,而非字面匹配。
- 上下文感知:区分多义词在不同语境下的含义。
- 适应性强:对同义词、近义词及不同表达方式敏感。
StructBERT WebUI 已封装模型部署与接口,直接调用 API 即可。
2. 环境准备
2.1 确认服务状态
确保 StructBERT 服务运行正常:
ps aux | grep "python.*app.py"
curl http://127.0.0.1:5000/health
健康检查返回示例:
{
"status": "healthy",
"model_loaded": true
}
2.2 安装必要的 Python 库
仅需 requests 库:
pip install requests
无需安装 TensorFlow 或 PyTorch,服务端已处理模型加载。
2.3 准备测试数据
模拟评论数据用于演示:
comments = [
"这个产品非常好用,推荐购买",
"质量不错,用起来很顺手",
"物流速度很快,第二天就到了",
"这个产品很好用,强烈推荐",
"包装很精美,送礼很合适",
"功能齐全,操作简单",
"性价比很高,物超所值",
"这个产品非常好用,建议大家购买",
"质量挺好的,使用起来很方便",
,
,
,
,
,
,
,
,
,
,
]

