基于 Cogito-V1-Preview-Llama-3B 的微信小程序 AI 对话集成指南 | 极客日志

PythonWeChatAI大前端

基于 Cogito-V1-Preview-Llama-3B 的微信小程序 AI 对话集成指南

综述由AI生成详细讲解了在微信小程序中集成 Cogito-V1-Preview-Llama-3B 模型实现 AI 对话功能的完整流程。内容包括后端 FastAPI 服务搭建、前端聊天界面开发、网络请求逻辑、对话历史管理以及针对延迟和上下文的优化方案。通过代理模式连接小程序与 AI 模型，解决了跨域通信、状态管理及用户体验问题，提供了可落地的代码示例与最佳实践。

技术博主发布于 2026/4/5更新于 2026/5/2227 浏览

项目概述

本文介绍如何在微信小程序中集成 AI 对话功能，使用 Cogito-V1-Preview-Llama-3B 模型。核心流程为：用户输入 -> 小程序 -> 后端服务器 -> AI 模型 -> 返回结果。

1. 环境准备

在动手写代码之前，需理清整体流程。目标是用户在微信小程序里输入问题，小程序将问题发送给部署好的 AI 模型服务器，服务器处理完再把答案传回小程序显示给用户。

你需要准备的东西：

一个微信小程序账号：去微信公众平台注册，拿到小程序的 AppID。
一个后端服务器：需要有一个运行 AI 模型的服务器，并成功部署了 Cogito-V1-Preview-Llama-3B 模型，拿到它的 API 访问地址（例如 https://your-server-address/v1/chat/completions）。
代码编辑器：小程序前端用微信开发者工具，后端推荐使用 VS Code。

关于模型选择：Cogito-V1-Preview-Llama-3B 参数量是 30 亿，在轻量级模型里表现均衡，对话能力、逻辑推理都够用，生成速度也相对较快。最关键的是，它对服务器资源要求没那么高，部署和运行的成本更友好，非常适合作为小程序的后端服务。

2. 后端搭建：让 AI 模型准备好接客

后端的工作很简单，就是提供一个 API 接口。小程序发来一段对话内容，后端调用 Cogito 模型生成回复，然后再把回复传回去。这里用 Python 的 FastAPI 来写，因为它轻快，适合这种 IO 密集型的网络服务。

首先，确保你的服务器上已经部署好了模型，并且知道怎么用代码去调用它。假设模型服务本身已经在运行并提供了 API。

第一步，安装必要的包：

pip install fastapi uvicorn httpx

httpx 用来作为 HTTP 客户端，去请求我们部署的模型服务。

第二步，编写核心的后端 API： 我们在项目根目录创建一个 main.py 文件。

from fastapi import FastAPI, HTTPException 
from fastapi.middleware.cors import CORSMiddleware 
import httpx 
import json 
from pydantic import BaseModel 
from typing import List, Optional 

# 定义请求体的数据模型，这决定了小程序要传什么数据过来
class ChatMessage(BaseModel):
    role: str # 角色，比如 "user" 或 "assistant"
    content: str # 消息内容

class ChatRequest():
    messages: [ChatMessage] 
    max_tokens: [] =  


app = FastAPI(title=)



app.add_middleware(
    CORSMiddleware,
    allow_origins=[], 
    allow_credentials=,
    allow_methods=[],
    allow_headers=[],
)


MODEL_API_URL = 


  ():
    
    
    payload = {
        : , 
        : [msg.()  msg  request.messages],
        : request.max_tokens,
        :  
    }
      httpx.AsyncClient(timeout=)  client: 
        :
            
            response =  client.post(MODEL_API_URL, json=payload)
            response.raise_for_status() 
            result = response.json() 
            ai_reply = result[][][][]
             {: ai_reply}
         httpx.RequestError  e: 
             HTTPException(status_code=, detail=)
         (KeyError, IndexError, json.JSONDecodeError)  e: 
             HTTPException(status_code=, detail=)
         Exception  e: 
             HTTPException(status_code=, detail=)



  ():
     {: , : }

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online

uvicorn main:app --host 0.0.0.0 --port 8000 --reload

<!-- pages/chat/chat.wxml -->
<view>
    <!-- 聊天消息区域 -->
    <scroll-view scroll-y scroll-into-view="{{'msg-' + (messageList.length - 1)}}" scroll-with-animation>
        <block wx:for="{{messageList}}" wx:key="index">
            <view>
                <view>
                    <image wx:if="{{item.role === 'user'}}" src="/images/user-avatar.png"></image>
                    <image wx:else src="/images/ai-avatar.png"></image>
                </view>
                <view>
                    <text>{{item.content}}</text>
                    <!-- 加载指示器 -->
                    <view wx:if="{{item.role === 'assistant' && item.loading}}">
                        <text>.</text><text>.</text><text>.</text>
                    </view>
                </view>
            </view>
        </block>
    </scroll-view>
    <!-- 底部输入区域 -->
    <view>
        <input value="{{inputValue}}" bindinput="onInput" placeholder="输入你的问题..." confirm-type="send" bindconfirm="sendMessage" focus="{{autoFocus}}" />
        <button bindtap="sendMessage" disabled="{{isSending}}"> {{isSending ? '发送中' : '发送'}} </button>
    </view>
</view>

/* pages/chat/chat.wxss */
.chat-container {
    height: 100vh;
    display: flex;
    flex-direction: column;
    background-color: #f5f5f5;
}
.message-list {
    flex: 1;
    padding: 20rpx;
    box-sizing: border-box;
    overflow: auto;
}
.message-item {
    display: flex;
    margin-bottom: 30rpx;
    align-items: flex-start;
}
.message-item.user {
    flex-direction: row-reverse;
}
.avatar image {
    width: 80rpx;
    height: 80rpx;
    border-radius: 50%;
}
.bubble {
    max-width: 65%;
    padding: 20rpx 30rpx;
    border-radius: 12rpx;
    margin: 0 20rpx;
    word-break: break-word;
    line-height: 1.5;
}
.user .bubble {
    background-color: #95ec69;
    color: #000;
}
.assistant .bubble {
    background-color: #fff;
    color: #333;
    box-shadow: 0 2rpx 10rpx rgba(0,0,0,0.1);
}
.loading-dots text {
    animation: blink 1.4s infinite;
    font-size: 40rpx;
    margin-right: 4rpx;
}
.loading-dots text:nth-child(2) {
    animation-delay: 0.2s;
}
.loading-dots text:nth-child(3) {
    animation-delay: 0.4s;
}
@keyframes blink {
    0%, 100% { opacity: 0.2; }
    50% { opacity: 1; }
}
.input-area {
    display: flex;
    padding: 20rpx;
    background-color: #fff;
    border-top: 1rpx solid #eee;
    align-items: center;
}
.input-box {
    flex: 1;
    padding: 20rpx 30rpx;
    border: 1rpx solid #ddd;
    border-radius: 40rpx;
    margin-right: 20rpx;
    font-size: 28rpx;
}
.send-btn {
    background-color: #07c160;
    color: white;
    border-radius: 40rpx;
    padding: 0 40rpx;
    font-size: 28rpx;
}
.send-btn[disabled] {
    background-color: #ccc;
}

// pages/chat/chat.js
// 这里填写你刚刚部署的后端服务器地址
const API_BASE_URL = 'https://your-backend-server.com';

Page({
    data: {
        inputValue: '', // 输入框的内容
        messageList: [], // 所有的聊天消息
        isSending: false, // 是否正在发送请求，用来防止重复点击
        autoFocus: true, // 自动聚焦输入框
    },
    onLoad() {
        // 页面加载时，可以尝试从本地缓存读取历史对话
        const history = wx.getStorageSync('aiChatHistory');
        if (history && Array.isArray(history)) {
            this.setData({ messageList: history });
        }
    },
    // 监听输入框变化
    onInput(e) {
        this.setData({ inputValue: e.detail.value });
    },
    // 发送消息的核心函数
    async sendMessage() {
        const { inputValue, messageList, isSending } = this.data;
        if (!inputValue.trim() || isSending) {
            return; // 空消息或正在发送时，不做任何事
        }
        // 1. 先把用户的消息显示在界面上
        const userMessage = { role: 'user', content: inputValue };
        const newList = [...messageList, userMessage];
        this.setData({
            messageList: newList,
            inputValue: '', // 清空输入框
            isSending: true,
        });
        // 2. 在界面上添加一个'AI 正在思考'的占位消息
        const thinkingMessage = { role: 'assistant', content: '', loading: true };
        this.setData({ messageList: [...newList, thinkingMessage] });
        // 3. 准备请求数据：发送整个对话历史，让 AI 知道上下文
        const requestMessages = newList.map(msg => ({ role: msg.role, content: msg.content }));
        try {
            // 4. 调用我们自己的后端接口
            const response = await new Promise((resolve, reject) => {
                wx.request({
                    url: `${API_BASE_URL}/chat`, // 你的后端/chat 接口
                    method: 'POST',
                    data: {
                        messages: requestMessages,
                        max_tokens: 300 // 控制回复长度
                    },
                    header: {
                        'content-type': 'application/json'
                    },
                    success: resolve,
                    fail: reject
                });
            });
            if (response.statusCode === 200) {
                // 5. 请求成功，用 AI 的回复替换掉'正在思考'的占位消息
                const aiReply = response.data.reply;
                const finalList = [...newList];
                finalList.pop(); // 移除 loading 占位
                finalList.push({ role: 'assistant', content: aiReply });
                this.setData({ messageList: finalList });
                // 保存到本地缓存
                wx.setStorageSync('aiChatHistory', finalList);
            } else {
                // 处理后端返回的业务错误（如状态码 400, 500 等）
                throw new Error(`请求失败：${response.statusCode}`);
            }
        } catch (error) {
            // 6. 处理网络错误或请求异常
            console.error('发送消息失败:', error);
            wx.showToast({
                title: '网络好像不太给力，请稍后再试',
                icon: 'none'
            });
            // 出错时，移除'正在思考'的占位消息
            const finalList = [...newList];
            finalList.pop();
            this.setData({ messageList: finalList });
        } finally {
            // 7. 无论成功失败，都重置发送状态
            this.setData({ isSending: false });
        }
    },
})

# 在 main.py 的 chat_with_ai 函数中，添加一个裁剪历史的函数
def trim_messages(messages: List[ChatMessage], max_history_turns: int = 10) -> List[ChatMessage]:
    """
    保留最近 N 轮对话，并确保总 token 数不会太长（这里简化处理，按轮次裁剪）。
    更精细的做法是计算 token 数，但需要模型对应的 tokenizer。
    """
    # 简单策略：只保留最近 max_history_turns 轮对话。
    # 通常保留用户和 AI 的最近几次交替发言即可。
    if len(messages) <= max_history_turns * 2: # 假设一轮包含用户和 AI 各一条消息
        return messages
    return messages[-(max_history_turns * 2):]

# 在 chat_with_ai 函数中调用
@app.post("/chat")
async def chat_with_ai(request: ChatRequest):
    trimmed_messages = trim_messages(request.messages, max_history_turns=5)
    payload = {
        "model": "cogito-v1-preview-llama-3b",
        "messages": [msg.dict() for msg in trimmed_messages], # 使用裁剪后的历史
        # ... 其他参数
    }
    # ... 后续请求逻辑

# 在 main.py 中，添加一个后处理函数
def postprocess_reply(text: str) -> str:
    """
    对模型生成的回复进行后处理。
    1. 过滤敏感词。
    2. 确保回复格式友好（如去掉多余的空行）。
    3. 如果回复太短或无意义，可以返回一个默认提示。
    """
    # 示例：简单的敏感词过滤（实际应用需要更完善的词库）
    sensitive_words = ["暴力", "仇恨"] # 示例词库，请根据实际情况扩充
    for word in sensitive_words:
        if word in text:
            text = text.replace(word, "**")
    # 示例：如果回复过短，可能是模型没理解，提示用户重新提问
    if len(text.strip()) < 5:
        return "我好像没太明白你的意思，能换个方式问问吗？"
    # 整理格式
    text = text.strip()
    return text

# 在 chat_with_ai 函数中，提取回复后调用
@app.post("/chat")
async def chat_with_ai(request: ChatRequest):
    # ... 前面的请求和获取 ai_reply 的代码 ...
    processed_reply = postprocess_reply(ai_reply)
    return {"reply": processed_reply}

基于 Cogito-V1-Preview-Llama-3B 的微信小程序 AI 对话集成指南

项目概述

1. 环境准备

2. 后端搭建：让 AI 模型准备好接客

更多推荐文章

相关免费在线工具

3. 前端开发：构建小程序的对话界面

3.1 页面布局与样式

3.2 核心逻辑与网络请求

4. 关键问题与优化方案

4.1 应对网络延迟：给用户一个'正在处理'的反馈

4.2 管理对话长度与上下文

4.3 提升回复质量与安全性

5. 总结

更多推荐文章

相关免费在线工具

基于 Cogito-V1-Preview-Llama-3B 的微信小程序 AI 对话集成指南

项目概述

1. 环境准备

2. 后端搭建：让 AI 模型准备好接客

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 前端开发：构建小程序的对话界面

3.1 页面布局与样式

3.2 核心逻辑与网络请求

4. 关键问题与优化方案

4.1 应对网络延迟：给用户一个'正在处理'的反馈

4.2 管理对话长度与上下文

4.3 提升回复质量与安全性

5. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具