StructBERT WebUI 实战：万级评论去重脚本实现 | 极客日志

PythonAI算法

StructBERT WebUI 实战：万级评论去重脚本实现

介绍如何使用 StructBERT WebUI 接口结合 Python 脚本实现大规模评论数据的语义去重。通过调用相似度计算 API，对比评论间的语义相似度而非简单字符串匹配，有效识别意思相同但表述不同的重复内容。核心代码包含一个不到 50 行的 remove_duplicates 函数，支持阈值调整、进度显示及异常处理。文章还涵盖了批量处理优化、文本预处理、动态阈值设置及生产环境下的错误恢复机制。该方法适用于评论系统、新闻聚合及商品描述清洗等场景，能显著节省存储空间并提升数据质量。

落日余晖发布于 2026/4/6更新于 2026/7/547 浏览

StructBERT WebUI 实战教程：用 remove_duplicates 函数实现万级评论去重脚本

产品上线后，用户评论数据量大且重复率高。简单的字符串匹配无法识别语义相同的评论（如'很好用'与'非常好用'），导致数据分析困难并浪费存储空间。本文介绍基于 StructBERT WebUI 接口，使用 Python 编写不到 50 行的脚本，实现万级评论的语义去重。

1. 为什么选择 StructBERT 做评论去重？

1.1 传统方法的局限性

字符串完全匹配：只能找出完全一样的评论，修改个别字即失效。
关键词匹配：复杂语境下容易漏判。
编辑距离：计算量大且对语义理解有限。

1.2 StructBERT 的优势

语义理解：基于上下文理解句意，而非字面匹配。
上下文感知：区分多义词在不同语境下的含义。
适应性强：对同义词、近义词及不同表达方式敏感。

StructBERT WebUI 已封装模型部署与接口，直接调用 API 即可。

2. 环境准备

2.1 确认服务状态

确保 StructBERT 服务运行正常：

ps aux | grep "python.*app.py"
curl http://127.0.0.1:5000/health

健康检查返回示例：

{
  "status": "healthy",
  "model_loaded": true
}

2.2 安装必要的 Python 库

仅需 requests 库：

pip install requests

无需安装 TensorFlow 或 PyTorch，服务端已处理模型加载。

2.3 准备测试数据

模拟评论数据用于演示：

comments = [
    "这个产品非常好用，推荐购买",
    "质量不错，用起来很顺手",
    "物流速度很快，第二天就到了",
    "这个产品很好用，强烈推荐",
    "包装很精美，送礼很合适",
    "功能齐全，操作简单",
    "性价比很高，物超所值",
    "这个产品非常好用，建议大家购买",
    "质量挺好的，使用起来很方便",
    ,
    ,
    ,
    ,
    ,
    ,
    ,
    ,
    ,
    ,
    
]

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import requests
import time

def remove_duplicates(comments, threshold=0.85, delay=0.1):
    """
    基于 StructBERT 语义相似度去除重复评论
    参数：
        comments: list - 评论列表
        threshold: float - 相似度阈值，默认 0.85
        delay: float - 请求间隔，默认 0.1 秒
    返回：
        list - 去重后的评论列表
    """
    url = "http://127.0.0.1:5000/similarity"
    unique_comments = []
    total = len(comments)
    print(f"开始处理 {total} 条评论...")

    for i, comment in enumerate(comments):
        if i % 10 == 0:
            print(f"处理进度：{i}/{total} ({i/total*100:.1f}%)")

        is_duplicate = False
        for existing in unique_comments:
            try:
                response = requests.post(url, json={
                    "sentence1": comment,
                    "sentence2": existing
                })
                similarity = response.json()['similarity']
                if similarity >= threshold:
                    is_duplicate = True
                    print(f" 发现重复 [{similarity:.2f}]:")
                    print(f" 原文：{existing}")
                    print(f" 重复：{comment}")
                    break
            except Exception as e:
                print(f" 计算相似度时出错：{e}")
                continue

        if not is_duplicate:
            unique_comments.append(comment)

        time.sleep(delay)

    print(f"处理完成！原始评论数：{total}，去重后：{len(unique_comments)}")
    print(f"去重率：{(1 - len(unique_comments)/total)*100:.1f}%")
    return unique_comments

unique_comments = remove_duplicates(comments)
for i, c in enumerate(unique_comments, 1):
    print(f"{i}. {c}")

开始处理 20 条评论...
处理进度：0/20 (0.0%)
发现重复 [0.92]:
 原文：这个产品非常好用，推荐购买
 重复：这个产品很好用，强烈推荐
...
处理完成！原始评论数：20，去重后：14
去重率：30.0%

def remove_duplicates_batch(comments, threshold=0.85, batch_size=10):
    url = "http://127.0.0.1:5000/batch_similarity"
    unique_comments = []
    for i, comment in enumerate(comments):
        if not unique_comments:
            unique_comments.append(comment)
            continue
        for j in range(0, len(unique_comments), batch_size):
            batch = unique_comments[j:j+batch_size]
            try:
                response = requests.post(url, json={
                    "source": comment,
                    "targets": batch
                })
                results = response.json()['results']
                max_sim = max(item['similarity'] for item in results)
                if max_sim >= threshold:
                    break
            except Exception as e:
                continue
        else:
            unique_comments.append(comment)
    return unique_comments

import re

def clean_comment(comment):
    comment = ' '.join(comment.split())
    comment = re.sub(r'[^\w\s\u4e00-\u9fff，。！？；：""''、]', '', comment)
    return comment

def dynamic_threshold(comment):
    length = len(comment)
    if length < 10:
        return 0.9
    elif length < 20:
        return 0.85
    else:
        return 0.8

import json
import os

def save_progress(comments, processed_indices, filename="progress.json"):
    progress = {
        "all_comments": comments,
        "processed": processed_indices,
        "timestamp": time.time()
    }
    with open(filename, 'w', encoding='utf-8') as f:
        json.dump(progress, f, ensure_ascii=False, indent=2)

StructBERT WebUI 实战：万级评论去重脚本实现

StructBERT WebUI 实战教程：用 remove_duplicates 函数实现万级评论去重脚本

1. 为什么选择 StructBERT 做评论去重？

1.1 传统方法的局限性

1.2 StructBERT 的优势

2. 环境准备

2.1 确认服务状态

2.2 安装必要的 Python 库

2.3 准备测试数据

更多推荐文章

相关免费在线工具

3. 核心代码：remove_duplicates 函数详解

3.1 完整代码实现

3.2 代码解析

3.3 使用方法

4. 实战演示

5. 高级技巧

5.1 批量处理优化

5.2 文本预处理

5.3 动态阈值调整

5.4 保存和加载进度

6. 实际应用场景扩展

7. 常见问题与解决方案

7.1 处理速度慢

7.2 阈值设置建议

7.3 内存不足

7.4 服务不稳定

8. 总结

更多推荐文章

相关免费在线工具

StructBERT WebUI 实战：万级评论去重脚本实现

StructBERT WebUI 实战教程：用 remove_duplicates 函数实现万级评论去重脚本

1. 为什么选择 StructBERT 做评论去重？

1.1 传统方法的局限性

1.2 StructBERT 的优势

2. 环境准备

2.1 确认服务状态

2.2 安装必要的 Python 库

2.3 准备测试数据

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 核心代码：remove_duplicates 函数详解

3.1 完整代码实现

3.2 代码解析

3.3 使用方法

4. 实战演示

5. 高级技巧

5.1 批量处理优化

5.2 文本预处理

5.3 动态阈值调整

5.4 保存和加载进度

6. 实际应用场景扩展

7. 常见问题与解决方案

7.1 处理速度慢

7.2 阈值设置建议

7.3 内存不足

7.4 服务不稳定

8. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具