Web Search 技能：构建具备实时联网能力的 AI Agent | 极客日志

PythonAI

Web Search 技能：构建具备实时联网能力的 AI Agent

Web Search 技能让 AI Agent 突破知识时效限制，通过集成搜索引擎 API 获取实时信息。了从架构设计到 LangChain 代码实现的完整流程，涵盖查询优化、缓存策略、错误处理及安全控制。结合财经问答与多语言新闻聚合案例，展示了如何构建高可用、低成本的联网智能体，为生产环境落地提供实践参考。

王初壹发布于 2026/4/7更新于 2026/7/2034 浏览

Web Search 技能：构建具备实时联网能力的 AI Agent

在 AI Agent 的开发实战中，我们常面临大模型知识时效性的瓶颈。训练数据截止于过去某个时间点，难以应对动态世界中的最新事件、股价波动或突发新闻。Web Search 技能正是解决这一痛点的关键模块，它通过集成搜索引擎 API（如 SerpAPI、Google Programmable Search Engine 等），赋予 Agent 实时获取互联网公开信息的能力。

本模块广泛应用于智能客服、市场情报分析、科研辅助及金融舆情监控等场景，能显著提升 Agent 的信息鲜度与决策质量。

技能概述

Web Search 技能的核心在于：Agent 接收用户查询后，自动调用外部搜索引擎接口，获取网页摘要、链接及结构化信息，经清洗、去重、排序和语义压缩后返回给大模型。

功能边界

输入：自然语言查询（例如'2024 年苹果 WWDC 发布了哪些新功能？'）
输出：结构化搜索结果（标题、URL、摘要） + 聚合后的文本摘要
不包含：网页全文抓取（需配合 Document Parser）、登录态访问、付费内容获取

核心能力

关键词提取与查询优化：识别实体与意图，生成高效搜索 Query
多源结果聚合：支持融合多个搜索引擎的结果
结果过滤与可信度评估：排除低质量、广告或虚假信息
上下文感知排序：结合对话历史调整结果相关性

架构设计

采用分层架构确保高内聚低耦合，支持插件式扩展（例如替换 Google 为 DuckDuckGo 只需实现新的 SearchEngineAdapter）。

+---------------------+
| User Query          |
+----------+----------+
           v
+---------------------+
| Query Preprocessor  |
| - 实体识别          |
| - 意图分类          |
| - 查询重写          |
+----------+----------+
           v
+---------------------+
| Search API Gateway  |
  多引擎适配器      
  请求限流重试     
  缓存代理          

           v

  Postprocessor
  去重              
  摘要提取          
  可信度打分        
  结果截断 (TopK)  

           v

 Output Formatter    
  JSON  Markdown   
  引用标注

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online

class WebSearchSkill:
    def __init__(self, api_key: str, engine: str = "google", max_results: int = 5):
        self.api_key = api_key
        self.engine = engine
        self.max_results = max_results

    def search(self, query: str, region: str = "us", lang: str = "en") -> dict:
        """
        执行网络搜索并返回结构化结果
        Args:
            query (str): 搜索关键词
            region (str): 搜索区域（如"cn", "us"）
            lang (str): 返回语言
        Returns:
            dict: {
                "query": str,
                "results": [
                    { "title": str, "url": str, "snippet": str, "position": int },
                    ...
                ],
                "summary": str # 聚合摘要
            }
        """
        pass

{
  "query": "2024 年苹果 WWDC 新功能",
  "results": [
    {
      "title": "Apple WWDC 2024: iOS 18, macOS Sequoia...",
      "url": "https://www.apple.com/newsroom/2024/wwdc/",
      "snippet": "Apple announced iOS 18 with Apple Intelligence...",
      "position": 1
    }
  ],
  "summary": "在 2024 年 WWDC 上，苹果发布了 iOS 18、macOS Sequoia，并首次推出 Apple Intelligence..."
}

import os
import hashlib
from typing import List, Dict, Optional
from langchain_community.utilities import GoogleSerperAPIWrapper
from langchain_core.tools import Tool
from langchain_core.callbacks import CallbackManagerForToolRun
from langchain_core.pydantic_v1 import BaseModel, Field
import tiktoken

# 安装依赖：pip install langchain-community serpapi tiktoken

class WebSearchInput(BaseModel):
    query: str = Field(description="The search query in natural language")
    max_results: int = Field(default=5, ge=1, le=10)

class WebSearchSkill:
    def __init__(self, serper_api_key: str, cache_dir: str = "./search_cache", max_tokens: int = 2000):
        self.search = GoogleSerperAPIWrapper(
            serper_api_key=serper_api_key, gl="us", hl="en"
        )
        self.cache_dir = cache_dir
        self.max_tokens = max_tokens
        os.makedirs(cache_dir, exist_ok=True)
        self.encoder = tiktoken.encoding_for_model("gpt-3.5-turbo")

    def _get_cache_key(self, query: str) -> str:
        return hashlib.md5(query.encode()).hexdigest()

    def _read_cache(self, key: str) -> Optional[Dict]:
        cache_file = os.path.join(self.cache_dir, f"{key}.json")
        if os.path.exists(cache_file):
            import json
            with open(cache_file, 'r', encoding='utf-8') as f:
                return json.load(f)
        return None

    def _write_cache(self, key: str, data: Dict):
        cache_file = os.path.join(self.cache_dir, f"{key}.json")
        import json
        with open(cache_file, 'w', encoding='utf-8') as f:
            json.dump(data, f, ensure_ascii=False, indent=2)

    def _summarize_results(self, results: List[Dict]) -> str:
        snippets = [r.get("snippet", "") for r in results if r.get("snippet")]
        combined = "\n\n".join(snippets[:5])
        tokens = self.encoder.encode(combined)
        if len(tokens) > self.max_tokens:
            combined = self.encoder.decode(tokens[:self.max_tokens])
        return combined

    def search(self, query: str, max_results: int = 5) -> Dict:
        cache_key = self._get_cache_key(query)
        cached = self._read_cache(cache_key)
        if cached:
            print(f"[CACHE HIT] {query}")
            return cached

        try:
            raw_results = self.search.results(query, num_results=max_results)
            organic = raw_results.get("organic", [])
            formatted_results = []
            for i, res in enumerate(organic):
                formatted_results.append({
                    "title": res.get("title", ""),
                    "url": res.get("link", ""),
                    "snippet": res.get("snippet", ""),
                    "position": i + 1
                })
            summary = self._summarize_results(formatted_results)
            output = {
                "query": query,
                "results": formatted_results,
                "summary": summary
            }
            self._write_cache(cache_key, output)
            return output
        except Exception as e:
            print(f"[SEARCH ERROR] {e}")
            return {"query": query, "results": [], "summary": "搜索服务暂时不可用，请稍后再试。"}

# 封装为 LangChain Tool
def create_web_search_tool(serper_api_key: str) -> Tool:
    skill = WebSearchSkill(serper_api_key=serper_api_key)

    def _run(query: str, run_manager: Optional[CallbackManagerForToolRun] = None) -> str:
        result = skill.search(query, max_results=5)
        return result["summary"]

    return Tool(
        name="web_search",
        description="Useful for when you need to answer questions about current events, latest news, or real-time information. Input should be a search query.",
        func=_run,
        args_schema=WebSearchInput
    )

# 使用示例
if __name__ == "__main__":
    SERPER_API_KEY = os.getenv("SERPER_API_KEY")
    if not SERPER_API_KEY:
        raise ValueError("Please set SERPER_API_KEY environment variable")
    tool = create_web_search_tool(SERPER_API_KEY)
    result = tool.run("What is the latest stock price of NVIDIA?")
    print(result)

from langchain_openai import ChatOpenAI
from langchain.agents import AgentExecutor, create_openai_tools_agent
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder

# 初始化 LLM 和工具
llm = ChatOpenAI(model="gpt-4-turbo", temperature=0)
search_tool = create_web_search_tool(os.getenv("SERPER_API_KEY"))

# 定义 Agent 提示词
prompt = ChatPromptTemplate.from_messages([
    ("system", "You are a financial assistant. Use web_search to get real-time data."),
    MessagesPlaceholder("chat_history"),
    ("human", "{input}"),
    MessagesPlaceholder("agent_scratchpad")
])

# 创建 Agent
agent = create_openai_tools_agent(llm, [search_tool], prompt)
agent_executor = AgentExecutor(agent=agent, tools=[search_tool], verbose=True)

# 测试
response = agent_executor.invoke({"input": "What is Tesla's current stock price and market cap?"})
print(response["output"])

def multilingual_news_summary(topic: str, languages: List[str] = ["en", "zh"]):
    all_snippets = []
    skill = WebSearchSkill(serper_api_key=os.getenv("SERPER_API_KEY"))
    for lang in languages:
        region = "cn" if lang == "zh" else "us"
        results = skill.search(f"{topic} site:news.google.com", max_results=3)
        for r in results["results"]:
            all_snippets.append(r["snippet"])
    
    # 调用 LLM 生成多语言摘要
    llm = ChatOpenAI(model="gpt-4")
    summary_prompt = f"Summarize the following news snippets about '{topic}' in both English and Chinese:\n\n" + "\n".join(all_snippets)
    return llm.invoke(summary_prompt).content

异常类型	原因	处理机制
API Rate Limit	超出 QPS 限制	指数退避重试（最多 3 次）
Invalid Query	查询含非法字符	自动清理（移除特殊符号）
Empty Results	无相关结果	返回友好提示 + 建议改写查询
Network Timeout	网络波动	设置 10 秒超时，失败后降级缓存

import logging
logger = logging.getLogger(__name__)
try:
    # 搜索逻辑
except requests.exceptions.Timeout:
    logger.warning("Search timeout", extra={"query": query})
    return fallback_response()

from concurrent.futures import ThreadPoolExecutor

def batch_search(queries: List[str]) -> List[Dict]:
    with ThreadPoolExecutor(max_workers=5) as executor:
        return list(executor.map(self.search, queries))

def test_web_search_skill():
    skill = WebSearchSkill(serper_api_key="fake_key")
    # Mock Serper API
    with patch.object(skill.search, 'results') as mock_search:
        mock_search.return_value = {"organic": [{"title": "Test", "link": "http://test.com", "snippet": "Test snippet"}]}
        result = skill.search("test query")
        assert len(result["results"]) == 1
        assert "Test snippet" in result["summary"]

Web Search 技能：构建具备实时联网能力的 AI Agent

Web Search 技能：构建具备实时联网能力的 AI Agent

技能概述

架构设计

更多推荐文章

相关免费在线工具

接口设计

代码实现（Python + LangChain）

实战案例

案例 1：实时财经问答 Agent

案例 2：多语言新闻聚合器

错误处理

性能优化

安全考量

测试方案

最佳实践

扩展方向

总结

更多推荐文章

相关免费在线工具

Web Search 技能：构建具备实时联网能力的 AI Agent

Web Search 技能：构建具备实时联网能力的 AI Agent

技能概述

架构设计

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

接口设计

代码实现（Python + LangChain）

实战案例

案例 1：实时财经问答 Agent

案例 2：多语言新闻聚合器

错误处理

性能优化

安全考量

测试方案

最佳实践

扩展方向

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具