StructBERT WebUI实战教程：用remove_duplicates函数实现万级评论去重脚本

Ne0inhk

15 Mar 2026 — 21 min read

StructBERT WebUI实战教程：用remove_duplicates函数实现万级评论去重脚本

你是不是也遇到过这样的烦恼？产品上线后，用户评论像潮水一样涌来，每天几千条，甚至上万条。但仔细一看，好多评论内容都差不多：“产品很好用”、“质量不错”、“推荐购买”……这些重复或相似的评论不仅让数据分析变得困难，还浪费了宝贵的存储空间。

手动去重？别开玩笑了，上万条评论，眼睛看花了也分不清哪些是重复的。用简单的字符串匹配？那更不行，“很好用”和“非常好用”明明意思一样，但字面上完全不同，传统方法根本识别不出来。

今天，我就带你用一个超级简单的方法，基于StructBERT WebUI，写一个不到50行的Python脚本，轻松搞定万级评论的去重工作。不用懂复杂的AI算法，也不用搭建复杂的环境，跟着我做，10分钟就能上手。

1. 为什么选择StructBERT做评论去重？

在开始写代码之前，我们先搞清楚一个问题：为什么不用传统的字符串匹配，而要选择StructBERT这种AI模型？

1.1 传统方法的局限性

我以前也试过用传统方法做评论去重，结果发现一堆问题：

字符串完全匹配：只能找出完全一样的评论，稍微改个字就不行了。

# 传统字符串匹配 comment1 = "这个产品很好用" comment2 = "这个产品非常好用" # 结果：不匹配！因为多了个“非常” print(comment1 == comment2) # False

关键词匹配：稍微复杂点就失效了。

# 关键词匹配 keywords = ["好用", "推荐", "不错"] comment = "用起来感觉还可以" # 结果：匹配失败！因为“可以”不在关键词列表里 match = any(keyword in comment for keyword in keywords) # False

编辑距离：计算量大，而且对语义理解有限。

from difflib import SequenceMatcher comment1 = "物流速度很快" comment2 = "送货非常迅速" # 编辑距离相似度很低，但意思其实一样 similarity = SequenceMatcher(None, comment1, comment2).ratio() # 约0.3

1.2 StructBERT的优势

StructBERT就不一样了，它能真正理解句子的意思：

语义理解：不是看字面，而是理解意思。

“今天天气很好” vs “今天阳光明媚” → 相似度0.85
“这个手机很棒” vs “这款手机非常好” → 相似度0.82

上下文感知：能理解词语在具体语境中的含义。

“苹果很好吃”（水果） vs “苹果手机很贵”（品牌） → 相似度很低
“这个方案很水”（质量差） vs “这里有很多水”（液体） → 相似度很低

适应性强：对同义词、近义词、不同表达方式都很敏感。

“性价比高” vs “物美价廉” → 相似度高
“客服态度好” vs “服务很热情” → 相似度高

最重要的是，StructBERT WebUI已经帮我们把复杂的模型部署、接口封装都做好了，我们只需要调用简单的API就行，完全不用关心背后的技术细节。

2. 环境准备：5分钟搞定

2.1 确认服务状态

首先，确保你的StructBERT服务正在运行。打开终端，输入：

# 检查服务进程 ps aux | grep "python.*app.py" # 或者测试健康接口 curl http://127.0.0.1:5000/health

如果看到类似下面的输出，说明服务正常：

{ "status": "healthy", "model_loaded": true }

2.2 安装必要的Python库

我们只需要一个库：requests，用来调用API。如果你的环境里还没有，安装一下：

pip install requests

就这么简单！不需要安装TensorFlow、PyTorch这些深度学习框架，也不需要下载几个G的模型文件。StructBERT服务已经帮我们处理好了所有复杂的东西。

2.3 准备测试数据

为了演示效果，我准备了一些模拟的评论数据，你可以用自己的真实数据替换：

# 模拟评论数据 - 实际使用时替换为你的数据 comments = [ "这个产品非常好用，推荐购买", "质量不错，用起来很顺手", "物流速度很快，第二天就到了", "这个产品很好用，强烈推荐", "包装很精美，送礼很合适", "功能齐全，操作简单", "性价比很高，物超所值", "这个产品非常好用，建议大家购买", # 与第1条高度相似 "质量挺好的，使用起来很方便", # 与第2条高度相似 "送货速度真快，隔天就收到了", # 与第3条高度相似 "客服态度很好，解决问题很快", "外观设计漂亮，很有质感", "电池续航时间长，不用经常充电", "这个产品非常好用，值得推荐", # 与第1条高度相似 "操作界面友好，新手也能快速上手", "音质效果很棒，听歌很享受", "拍摄效果清晰，夜景也很亮", "运行速度流畅，不卡顿", "这个产品真心不错，推荐给大家", # 与第1条高度相似 "包装完好，没有损坏" ]

你看，这里面有很多评论意思都差不多，只是表达方式略有不同。我们的目标就是把它们找出来，只保留最有代表性的那条。

3. 核心代码：remove_duplicates函数详解

现在来到最核心的部分：remove_duplicates函数。这个函数只有40多行，但功能非常强大。

3.1 完整代码实现

先看完整的代码，然后我一行行给你解释：

import requests import time def remove_duplicates(comments, threshold=0.85, delay=0.1): """ 基于StructBERT语义相似度去除重复评论 参数： comments: list - 评论列表 threshold: float - 相似度阈值，默认0.85（85%相似就认为是重复） delay: float - 请求间隔，防止请求过快，默认0.1秒 返回： list - 去重后的评论列表 """ # StructBERT服务地址 url = "http://127.0.0.1:5000/similarity" # 存储去重后的评论 unique_comments = [] # 记录处理进度 total = len(comments) print(f"开始处理 {total} 条评论...") for i, comment in enumerate(comments): # 显示进度 if i % 10 == 0: print(f"处理进度: {i}/{total} ({i/total*100:.1f}%)") # 标记是否为重复评论 is_duplicate = False # 与已保留的评论逐一比较 for existing in unique_comments: try: # 调用StructBERT API计算相似度 response = requests.post(url, json={ "sentence1": comment, "sentence2": existing }) # 解析结果 similarity = response.json()['similarity'] # 如果相似度超过阈值，标记为重复 if similarity >= threshold: is_duplicate = True print(f" 发现重复 [{similarity:.2f}]:") print(f" 原文: {existing}") print(f" 重复: {comment}") break except Exception as e: print(f" 计算相似度时出错: {e}") # 出错时跳过这条比较，继续处理下一条 continue # 如果不是重复评论，添加到结果列表 if not is_duplicate: unique_comments.append(comment) # 添加延迟，避免请求过快 time.sleep(delay) print(f"处理完成！原始评论数: {total}，去重后: {len(unique_comments)}") print(f"去重率: {(1 - len(unique_comments)/total)*100:.1f}%") return unique_comments

3.2 代码逐行解析

让我带你一步步理解这个函数：

1. 函数参数

def remove_duplicates(comments, threshold=0.85, delay=0.1):

comments：你要处理的评论列表
threshold：相似度阈值，默认0.85。意思是如果两条评论相似度达到85%，就认为是重复的。你可以根据需求调整，要求严格就设高一点（如0.9），宽松就设低一点（如0.8）
delay：请求间隔，默认0.1秒。这是为了防止请求发送太快，把服务器搞崩了

2. 进度显示

if i % 10 == 0: print(f"处理进度: {i}/{total} ({i/total*100:.1f}%)")

每处理10条评论就显示一次进度，这样你能知道程序还在正常运行，没有卡死。

3. 核心比较逻辑

response = requests.post(url, json={ "sentence1": comment, "sentence2": existing }) similarity = response.json()['similarity']

这就是调用StructBERT API的核心代码。我们把两条评论发送给服务，服务返回一个0到1之间的相似度分数。

4. 重复判断

if similarity >= threshold: is_duplicate = True

如果相似度超过我们设定的阈值，就标记为重复评论。

5. 错误处理

except Exception as e: print(f" 计算相似度时出错: {e}") continue

网络请求可能会出错，加上错误处理能让程序更健壮，不会因为一两个错误就崩溃。

6. 结果统计

print(f"去重率: {(1 - len(unique_comments)/total)*100:.1f}%")

最后计算一下去重率，让你知道这个脚本帮你节省了多少存储空间。

3.3 如何使用这个函数

使用起来超级简单，只需要三行代码：

# 1. 准备你的评论数据 my_comments = [...] # 你的评论列表 # 2. 调用去重函数 unique_comments = remove_duplicates(my_comments) # 3. 查看结果 print("去重后的评论：") for i, comment in enumerate(unique_comments, 1): print(f"{i}. {comment}")

4. 实战演示：处理真实评论数据

光说不练假把式，我们来实际运行一下，看看效果如何。

4.1 运行去重脚本

用我们刚才准备的测试数据运行一下：

# 运行去重 unique_results = remove_duplicates(comments, threshold=0.85) print("\n" + "="*50) print("去重结果对比") print("="*50) print(f"原始评论数量: {len(comments)}") print(f"去重后数量: {len(unique_results)}") print(f"去除重复: {len(comments) - len(unique_results)} 条")

运行后你会看到类似这样的输出：

开始处理 20 条评论... 处理进度: 0/20 (0.0%) 发现重复 [0.92]: 原文: 这个产品非常好用，推荐购买 重复: 这个产品很好用，强烈推荐 处理进度: 10/20 (50.0%) 发现重复 [0.88]: 原文: 质量不错，用起来很顺手 重复: 质量挺好的，使用起来很方便 发现重复 [0.91]: 原文: 物流速度很快，第二天就到了 重复: 送货速度真快，隔天就收到了 处理进度: 10/20 (50.0%) 发现重复 [0.93]: 原文: 这个产品非常好用，推荐购买 重复: 这个产品非常好用，值得推荐 发现重复 [0.89]: 原文: 这个产品非常好用，推荐购买 重复: 这个产品真心不错，推荐给大家 处理完成！原始评论数: 20，去重后: 14 去重率: 30.0% ================================================== 去重结果对比 ================================================== 原始评论数量: 20 去重后数量: 14 去除重复: 6 条

4.2 结果分析

看到没？20条评论里，有6条被识别为重复内容，去重率30%。这意味着如果你的数据库里有10万条评论，用这个脚本处理后，可能只剩下7万条，节省了30%的存储空间！

更重要的是，它识别出的重复不是简单的字面重复，而是语义重复：

“这个产品非常好用，推荐购买” vs “这个产品很好用，强烈推荐”
“物流速度很快，第二天就到了” vs “送货速度真快，隔天就收到了”

这些评论用传统方法根本识别不出来，但StructBERT能准确判断它们意思相同。

4.3 查看去重后的评论

让我们看看最终保留了哪些评论：

print("\n保留的评论列表：") for i, comment in enumerate(unique_results, 1): print(f"{i:2d}. {comment}")

输出结果：

保留的评论列表： 1. 这个产品非常好用，推荐购买 2. 质量不错，用起来很顺手 3. 物流速度很快，第二天就到了 4. 包装很精美，送礼很合适 5. 功能齐全，操作简单 6. 性价比很高，物超所值 7. 客服态度很好，解决问题很快 8. 外观设计漂亮，很有质感 9. 电池续航时间长，不用经常充电 10. 操作界面友好，新手也能快速上手 11. 音质效果很棒，听歌很享受 12. 拍摄效果清晰，夜景也很亮 13. 运行速度流畅，不卡顿 14. 包装完好，没有损坏

完美！重复的内容都被去掉了，只保留了最有代表性的那条。而且不同类型的评论都保留了下来，没有误伤。

5. 高级技巧：优化性能与效果

基本的去重功能已经实现了，但如果你要处理上万条评论，或者对效果有更高要求，下面这些技巧会很有用。

5.1 批量处理优化

我们之前的代码是一条条比较的，如果有一万条评论，计算量会很大。StructBERT提供了批量计算接口，可以一次计算多个相似度：

def remove_duplicates_batch(comments, threshold=0.85, batch_size=10): """ 批量版本的去重函数，性能更好 """ url = "http://127.0.0.1:5000/batch_similarity" unique_comments = [] print(f"开始批量处理 {len(comments)} 条评论...") for i, comment in enumerate(comments): if not unique_comments: unique_comments.append(comment) continue # 分批比较 for j in range(0, len(unique_comments), batch_size): batch = unique_comments[j:j+batch_size] try: response = requests.post(url, json={ "source": comment, "targets": batch }) results = response.json()['results'] # 检查是否有超过阈值的 max_similarity = max(item['similarity'] for item in results) if max_similarity >= threshold: print(f" 发现重复 [{max_similarity:.2f}]") break except Exception as e: print(f" 批量计算出错: {e}") continue else: # 如果所有批次都没有重复，添加到结果 unique_comments.append(comment) # 显示进度 if i % 50 == 0: print(f"处理进度: {i}/{len(comments)}") return unique_comments

这个版本一次可以比较多个评论，减少了网络请求次数，处理速度能提升好几倍。

5.2 文本预处理

有时候评论里有些特殊字符、多余空格，会影响相似度计算。我们可以先清洗一下文本：

def clean_comment(comment): """ 清洗评论文本 """ import re # 去除多余空格.join(comment.split()) # 去除特殊符号（保留中文、英文、数字和常用标点） comment = re.sub(r'[^\w\s\u4e00-\u9fff，。！？；：""''、]', '', comment) # 转小写（如果是英文评论） # comment = comment.lower() return comment # 使用前先清洗 cleaned_comments = [clean_comment(c) for c in comments] unique_comments = remove_duplicates(cleaned_comments)

5.3 动态阈值调整

不同的评论类型可能需要不同的阈值。比如，长评论可以设置低一点的阈值，短评论设置高一点：

def dynamic_threshold(comment): """ 根据评论长度动态调整阈值 """ length = len(comment) if length < 10: # 很短的评价 return 0.9 # 要求高度相似 elif length < 20: # 中等长度 return 0.85 else: # 长评论 return 0.8 # 可以宽松一点 def remove_duplicates_dynamic(comments): """ 使用动态阈值的去重 """ url = "http://127.0.0.1:5000/similarity" unique_comments = [] for comment in comments: is_duplicate = False threshold = dynamic_threshold(comment) for existing in unique_comments: response = requests.post(url, json={ "sentence1": comment, "sentence2": existing }) similarity = response.json()['similarity'] if similarity >= threshold: is_duplicate = True break if not is_duplicate: unique_comments.append(comment) return unique_comments

5.4 保存和加载进度

如果要处理的数据量很大，可能需要分多次处理。我们可以保存处理进度：

import json import os def save_progress(comments, processed_indices, filename="progress.json"): """ 保存处理进度 """ progress = { "all_comments": comments, "processed": processed_indices, "timestamp": time.time() } with open(filename, 'w', encoding='utf-8') as f: json.dump(progress, f, ensure_ascii=False, indent=2) print(f"进度已保存到 {filename}") def load_progress(filename="progress.json"): """ 加载处理进度 """ if os.path.exists(filename): with open(filename, 'r', encoding='utf-8') as f: progress = json.load(f) print(f"从 {filename} 恢复进度") return progress["all_comments"], set(progress["processed"]) return None, None # 使用示例 comments = [...] # 你的评论数据 processed_indices = set() # 已处理的索引 # 每次处理一部分 batch_size = 1000 for i in range(0, len(comments), batch_size): batch = comments[i:i+batch_size] # 处理这一批 # ... # 更新已处理索引 processed_indices.update(range(i, min(i+batch_size, len(comments)))) # 保存进度 save_progress(comments, list(processed_indices)) print(f"已处理 {len(processed_indices)}/{len(comments)} 条评论")

6. 实际应用场景扩展

这个去重脚本不仅可以用在评论去重上，稍微修改一下，就能用在很多其他场景。

6.1 新闻去重

很多新闻网站会有不同来源的同一新闻，可以用这个脚本去重：

def deduplicate_news(news_list, threshold=0.8): """ 新闻标题去重 """ unique_news = [] for news in news_list: title = news['title'] is_duplicate = False for existing in unique_news: # 比较新闻标题 similarity = calculate_similarity(title, existing['title']) if similarity >= threshold: is_duplicate = True print(f"重复新闻: {title}") break if not is_duplicate: unique_news.append(news) return unique_news # 示例新闻数据 news_data = [ {"title": "人工智能大会在京召开", "source": "新华网"}, {"title": "AI大会在北京举行", "source": "人民网"}, {"title": "科技部发布新政策", "source": "央视网"}, {"title": "人工智能会议在京开幕", "source": "中新网"} ]

6.2 商品描述去重

电商平台经常有不同卖家卖同一商品，描述都差不多：

def deduplicate_products(products, threshold=0.75): """ 商品描述去重 """ unique_products = [] for product in products: description = product['description'] is_duplicate = False for existing in unique_products: # 比较商品描述 similarity = calculate_similarity(description, existing['description']) if similarity >= threshold: is_duplicate = True # 保留价格更低的那个 if product['price'] < existing['price']: unique_products.remove(existing) unique_products.append(product) break if not is_duplicate: unique_products.append(product) return unique_products

6.3 问答对去重

智能客服系统里，经常有不同用户问同样的问题：

def deduplicate_qa_pairs(qa_list, threshold=0.7): """ 问答对去重 """ unique_qa = [] for qa in qa_list: question = qa['question'] is_duplicate = False for existing in unique_qa: # 比较问题相似度 similarity = calculate_similarity(question, existing['question']) if similarity >= threshold: is_duplicate = True # 可以选择保留回答更好的那个 if len(qa['answer']) > len(existing['answer']): unique_qa.remove(existing) unique_qa.append(qa) break if not is_duplicate: unique_qa.append(qa) return unique_qa

7. 常见问题与解决方案

在实际使用中，你可能会遇到一些问题，这里我总结了一些常见的情况和解决方法。

7.1 处理速度太慢怎么办？

问题：我有10万条评论，处理起来太慢了。

解决方案：

使用批量接口：像前面介绍的，用batch_similarity接口一次计算多个相似度。
增加延迟：适当减少请求间隔，但不要太快，否则可能被服务器限制。
多线程处理：但要注意StructBERT服务可能不支持太高并发。

import concurrent.futures def parallel_remove_duplicates(comments, threshold=0.85, max_workers=3): """ 并行处理版本（谨慎使用） """ # 将评论分成多个块 chunk_size = len(comments) // max_workers chunks = [comments[i:i+chunk_size] for i in range(0, len(comments), chunk_size)] results = [] with concurrent.futures.ThreadPoolExecutor(max_workers=max_workers) as executor: futures = [] for chunk in chunks: future = executor.submit(remove_duplicates, chunk, threshold) futures.append(future) for future in concurrent.futures.as_completed(futures): results.extend(future.result()) # 对最终结果再次去重 final_result = remove_duplicates(results, threshold) return final_result

7.2 相似度阈值怎么设置？

问题：阈值设多少合适？0.8、0.85还是0.9？

建议：

严格去重（如论文查重）：0.9-0.95
一般评论去重：0.85-0.9
宽松去重（如新闻聚合）：0.75-0.85
问答匹配：0.7-0.8

你可以先测试一下，看看不同阈值的效果：

def test_thresholds(comments): """ 测试不同阈值的效果 """ thresholds = [0.7, 0.75, 0.8, 0.85, 0.9, 0.95] print("阈值测试结果：") print("阈值 | 去重后数量 | 去重率") print("-" * 30) for threshold in thresholds: unique = remove_duplicates(comments[:100], threshold=threshold) # 先用100条测试 dedupe_rate = (1 - len(unique)/100) * 100 print(f"{threshold:.2f} | {len(unique):11d} | {dedupe_rate:6.1f}%") return thresholds

7.3 内存不足怎么办？

问题：处理大量数据时内存不够用。

解决方案：

分批处理：不要一次性加载所有数据。
使用生成器：从文件或数据库流式读取。
及时清理内存：处理完一批就释放一批。

def deduplicate_large_file(file_path, threshold=0.85, batch_size=1000): """ 处理大文件的去重 """ unique_comments = [] with open(file_path, 'r', encoding='utf-8') as f: batch = [] for line in f: comment = line.strip() if comment: # 跳过空行 batch.append(comment) # 积累到一定数量就处理一批 if len(batch) >= batch_size: unique_batch = remove_duplicates(batch, threshold) unique_comments.extend(unique_batch) batch = [] # 清空批次 print(f"已处理 {len(unique_comments)} 条唯一评论") # 处理最后一批 if batch: unique_batch = remove_duplicates(batch, threshold) unique_comments.extend(unique_batch) # 最后对所有结果再次去重（因为批次之间可能有重复） final_result = remove_duplicates(unique_comments, threshold) return final_result

7.4 服务不稳定怎么办？

问题：StructBERT服务偶尔会断开连接。

解决方案：

添加重试机制：请求失败时自动重试。
健康检查：处理前先检查服务状态。
保存检查点：定期保存进度，服务恢复后可以继续。

import requests from requests.adapters import HTTPAdapter from requests.packages.urllib3.util.retry import Retry def create_session_with_retry(retries=3, backoff_factor=0.3): """ 创建带重试机制的session """ session = requests.Session() retry_strategy = Retry( total=retries, backoff_factor=backoff_factor, status_forcelist=[500, 502, 503, 504] ) adapter = HTTPAdapter(max_retries=retry_strategy) session.mount("http://", adapter) session.mount("https://", adapter) return session def check_service_health(): """ 检查服务是否健康 """ try: response = requests.get("http://127.0.0.1:5000/health", timeout=5) return response.status_code == 200 except: return False def safe_remove_duplicates(comments, threshold=0.85): """ 带错误恢复的去重 """ # 检查服务 if not check_service_health(): print("服务不可用，请先启动服务") return comments # 创建带重试的session session = create_session_with_retry() url = "http://127.0.0.1:5000/similarity" unique_comments = [] for i, comment in enumerate(comments): is_duplicate = False for existing in unique_comments: try: response = session.post(url, json={ "sentence1": comment, "sentence2": existing }, timeout=10) similarity = response.json()['similarity'] if similarity >= threshold: is_duplicate = True break except Exception as e: print(f" 请求失败: {e}") print(" 等待5秒后重试...") time.sleep(5) # 重新检查服务 if not check_service_health(): print("服务已断开，保存进度并退出") save_progress(comments, i, "error_progress.json") return unique_comments if not is_duplicate: unique_comments.append(comment) return unique_comments

8. 总结

通过今天的学习，你已经掌握了一个强大的评论去重工具。让我们回顾一下关键点：

8.1 核心收获

简单易用：不到50行代码，就能实现万级评论的去重，不需要深度学习背景。
效果显著：基于语义相似度，能识别出传统方法发现不了的重复内容。
灵活可调：阈值、批处理大小、延迟时间都可以根据需求调整。
扩展性强：稍作修改就能用在新闻去重、商品描述去重、问答去重等场景。

8.2 最佳实践建议

根据我的经验，给你几个实用建议：

对于新手：

先从100-1000条数据开始测试，熟悉流程
阈值先从0.85开始，根据效果调整
一定要加进度显示，知道程序在正常运行

对于大量数据：

使用批量处理接口，提升速度
分批处理，避免内存不足
保存处理进度，防止意外中断

对于生产环境：

添加完善的错误处理和重试机制
记录详细的日志，方便排查问题
定期监控服务状态和性能

8.3 下一步学习方向

如果你对这个技术感兴趣，可以继续探索：

尝试其他模型：除了StructBERT，还有SimBERT、BERT-Whitening等其他相似度计算模型。
优化算法：研究更高效的去重算法，如聚类算法、局部敏感哈希等。
构建完整系统：将去重功能集成到你的评论系统或内容管理系统中。
性能调优：学习如何优化大规模文本处理的性能。

最重要的是，现在就开始动手实践。找一些你的实际数据，运行一下这个脚本，看看效果如何。只有实际用了，你才能真正掌握这个工具，发现它更多的可能性。

记住，技术是为解决问题服务的。StructBERT WebUI和这个去重脚本，都是帮你更高效处理文本数据的工具。用起来，用得好，你就能在数据清洗、内容管理这些工作上节省大量时间，把精力放在更有价值的事情上。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 ZEEKLOG星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。