1. 背景与目标
跨境电商公司做 AI,最容易踩的坑不是模型不够强,而是 数据割裂、口径不统一、工具链不可复用、产出无法闭环。典型现状包括:
- 运营数据散落在 Amazon SP-API、ERP/WMS、广告平台、客服工单、第三方选品工具(如卖家精灵)等多个系统;
- 业务问题(选品/关键词/广告/补货/合规)彼此耦合,但数据链路却是断的;
- LLM 生成内容(Listing、广告词、客服话术)可用性不稳定,缺少可追踪评测与回滚机制;
- 文件类知识(SOP、合规条款、合同、类目规范)难以被 AI 高质量引用,导致'幻觉'和合规风险。
本文给出一套'可落地'的 AI 数据中台架构:卖家精灵 MCP 接入 + 湖仓一体 + RAG 检索增强 + Function Calling/Agent 编排 + 指标回流治理闭环。
2. 总体架构:一个中台,三条主链路
我们把 AI 数据中台拆成 7 个层级(从左到右):
- 数据/知识源:Amazon SP-API、卖家精灵 MCP、ERP/WMS/财务、站外趋势与合规数据、文件与 Notion 知识库。
- 采集与标准化层:MCP 连接器网关(鉴权/限流/统一协议)、实时采集、批处理 ETL、OCR 解析、指标口径归一、数据质量与血缘。
- 存储与建模层(湖仓):Raw Zone(原始数据湖)→ Curated/DM(数仓主题域)→ 主数据与维表 → Feature Store(特征库)。
- 知识与检索层(RAG):Chunking → Embedding → Vector DB → Hybrid Search + Rerank。
- AI 编排与执行层:Prompt/模板版本管理、LLM 推理服务、Function Calling、Agent 工作流、安全与合规护栏、训练微调与模型发布。
- 业务应用层:智能选品、关键词/Listing 生成(面向 COSMO/Rufus)、广告投放优化、供应链补货、舆情与本地化客服、合规风控。
- 闭环反馈与治理:效果指标回流(CTR/CVR/ACoS/LTV/缺货率/客诉率)、在线监控(漂移/幻觉/工具失败率)、评测回放与持续迭代。
核心思路只有一句话:'数据可复用、知识可引用、决策可执行、结果可回流。'
3. 卖家精灵 MCP 怎么接:从'工具'到'可编排能力'
卖家精灵 MCP 的价值不是'多一个数据源',而是把它抽象成 一组可被 LLM 调用的原子能力,例如:
- 类目机会扫描:需求量、竞争强度、价格带、利润空间;
- 竞品集合:核心 ASIN、上新趋势、评价结构、流量词;
- 关键词资产:搜索量、相关度、竞价水平、排名难度;
- 反查链路:关键词 → 竞品 → 类目 → 机会点。
工程上建议做一层 MCP 连接器网关:
- 统一鉴权、限流、重试、缓存;
- 标准化输入输出(统一字段、单位、币种、时间粒度);
- 输出'结构化结果'而不是纯文本,便于后续入仓、评测与可视化;
- 与 Function Calling 对齐:每个 MCP 能力都作为一个 tool/function 对外暴露。
这一步会把'卖家精灵'从运营工具变成数据中台的 可编排 API 能力集。
4. 数据标准化:解决 80% 的'AI 不好用'问题
跨境电商的数据痛点,本质上是 口径问题。没有口径统一,AI 生成/预测/优化都无法稳定。
建议在标准化层完成以下工作:
4.1 指标口径统一
- GMV、Revenue、Profit 的定义必须固定;
- ACoS、TACoS、ROAS、CVR 的计算方式要落在同一口径;
- 币种与税率统一换算:按交易日/结算日/财务月都要明确;
- 时间粒度统一:日/周/月的聚合规则需要固化。


