LangChain 实战：构建微博大 V 推荐智能体 | 极客日志

PythonAI算法

LangChain 实战：构建微博大 V 推荐智能体

综述由AI生成如何使用 LangChain 框架结合 LLM 和爬虫技术，构建一个自动识别微博大 V 并获取其信息的智能体。通过 SerpAPI 搜索关键词定位 UID，利用爬虫抓取公开资料，最后通过 Flask 封装服务供业务部门调用。重点展示了 Agent 初始化、Prompt 模板设计及数据清洗流程，实现了从需求分析到服务交付的完整闭环。

独立开发者发布于 2025/2/6更新于 2026/6/227 浏览

LangChain 实战：构建微博大 V 推荐智能体

前言

在深入理解 LangChain 各个模块后，通过实际业务场景进行实战是掌握其用法的关键。本文将以一个电商推广场景为例，利用 LangChain 和 LLM（大语言模型）开发一款效率工具，帮助网销团队在微博上自动寻找适合合作的大 V。

项目需求

某电商品牌计划结合节日和食补概念提升品牌形象，需要联系微博上的相关领域大 V 进行推广。AIGC 开发部门需开发一个社交网络工具，实现以下功能：

利用搜索能力找到对特定主题感兴趣的大 V 并获取 UID。
爬取大 V 的公开信息以 JSON 格式输出。
基于爬虫内容，让 LLM 生成个性化的合作邀请文案。
基于 Flask 将功能封装为服务交付给业务部门使用。

技术分析

Agent 搜索：利用 LangChain 的 Agent 和 Search Chain，定位微博中对特定关键词有兴趣的大 V，返回 UID。
数据爬取：编写爬虫抓取大 V 公开信息，解析为结构化数据。
Prompt 模板：结合爬虫内容，使用 PromptTemplate 让 LLM 生成热情的合作邀请。
服务封装：基于 Flask 提供 API 接口。

查找大 V

首先编写代码，通过 Agent 找到目标大 V 的微博 UID。

环境设置与入口

# 环境变量设置
import os
os.environ['OPENAI_API_KEY'] = 'your_api_key_here'
os.environ['SERPAPI_API_KEY'] = 'your_api_key_here'

# 正则模块
import re 

# 核心开发一个 weibo_agent find_v 方法
from agents.weibo_agent import find_V

if __name__ == "__main__":
    response_UID = find_V(food_type="助眠")
    print(response_UID)
    # 从返回结果中正则提取所有的 UID 数字
    UID = re.findall(r'\d+', response_UID)[0]
    print("这位大 V 的微博 ID 是", UID)

定义 Agent

我们如何在微博中找到合适的 UID？通过 find_V 方法实现。

# tools_search_tool 后续会编写
from tools_search_tool import get_UID

 langchain.prompts  PromptTemplate
 langchain.chat_models  ChatOpenAI

 langchain.agents  initialize_agent, Tool
 langchain.agents  AgentType

 ():
    llm = ChatOpenAI(temperature=, model_name=)
    template = 
    prompt_template = PromptTemplate(
        input_variables=[],
        template=template
    )
    tools = [
        Tool(
            name=,
            func=get_UID,
            description=
        )
    ]

    agent = initialize_agent(
        tools,
        llm,
        agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION,
        verbose=
    )

    ID = agent.run(prompt_template.format_prompt(food=food_type))
     ID

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# langchain 集成了 SerpAIWrapper
from langchain.utilities import SerpAPIWrapper

def get_UID(food: str):
    """Searches for Weibo Page."""
    search = SerpAPIWrapper()
    res = search.run(f"{food} site:weibo.com")
    return res

import json     # json 解析
import requests #发送请求
import time #时间

def scrape_weibo(url: str):
    '''爬取相关博主的资料'''
    # 请求头 User-Agent 模拟浏览器，referer 模拟来源
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36",
        "Referer": "https://weibo.com"
    }
    # 注意：生产环境中请妥善保管 Cookie，避免硬编码
    cookies = {
        "cookie": "XSRF-TOKEN=...; _s_tentry=weibo.com; ..." 
    }
    try:
        response = requests.get(url, headers=headers, cookies=cookies, timeout=10)
        time.sleep(2) # 加上 2 秒延时防止被反爬
        return response.text
    except Exception as e:
        print(f"Request failed: {e}")
        return None

def get_data(id):
    url = f"https://weibo.com/ajax/profile/detail?uid={id}"
    html = scrape_weibo(url)
    if not html:
        return {}
    response = json.loads(html)
    return response

import re

def contains_chinese(s):
    return bool(re.search('[\u4e00-\u9fa5]', s))

def remove_non_chinese_fields(d):
    if isinstance(d, dict):
        to_remove = [key for key, value in d.items() if isinstance(value, (str, int, float, bool)) and (not contains_chinese(str(value)))]
        for key in to_remove:
            del d[key]
        
        for key, value in d.items():
            if isinstance(value, (dict, list)):
                remove_non_chinese_fields(value)
    elif isinstance(d, list):
        to_remove_indices = []
        for i, item in enumerate(d):
            if isinstance(item, (str, int, float, bool)) and (not contains_chinese(str(item))):
                to_remove_indices.append(i)
            else:
                remove_non_chinese_fields(item)
        
        for index in reversed(to_remove_indices):
            d.pop(index)

from flask import Flask, request, jsonify
from agents.weibo_agent import find_V
from tools.scraping_tool import get_data

app = Flask(__name__)

@app.route('/api/find_kol', methods=['POST'])
def find_kol():
    data = request.json
    food_type = data.get('food_type', '养生')
    uid = find_V(food_type)
    if not uid:
        return jsonify({"status": "error", "message": "未找到合适的大 V"})
    
    # 获取详细信息
    info = get_data(uid)
    return jsonify({"status": "success", "uid": uid, "info": info})

if __name__ == '__main__':
    app.run(debug=True, port=5000)

LangChain 实战：构建微博大 V 推荐智能体

LangChain 实战：构建微博大 V 推荐智能体

前言

项目需求

技术分析

查找大 V

环境设置与入口

定义 Agent

更多推荐文章

相关免费在线工具

基于 SerpAPI 的搜索工具

爬虫爬取大 V 信息

基础爬虫实现

数据清洗

服务封装与交付

总结

更多推荐文章

相关免费在线工具

LangChain 实战：构建微博大 V 推荐智能体

LangChain 实战：构建微博大 V 推荐智能体

前言

项目需求

技术分析

查找大 V

环境设置与入口

定义 Agent

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

基于 SerpAPI 的搜索工具

爬虫爬取大 V 信息

基础爬虫实现

数据清洗

服务封装与交付

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具