Cogito-V1-Preview-Llama-3B 微信小程序开发：集成AI对话功能指南

Ne0inhk

24 Mar 2026 — 15 min read

Cogito-V1-Preview-Llama-3B 微信小程序开发：集成AI对话功能指南

最近在做一个微信小程序项目，需要给它加上一个智能对话的功能。用户可以在小程序里提问，然后得到一个像模像样的回答。听起来挺酷，但做起来发现一堆坑：小程序怎么调用外部AI接口？网络慢了怎么办？对话历史怎么存？这些问题不解决，用户体验就上不去。

我最后选了Cogito-V1-Preview-Llama-3B这个模型，它体积不大但能力不错，很适合放在服务器上给小程序用。折腾了几天，总算把前后端都跑通了。今天就把整个过程，包括代码怎么写、问题怎么解决，都整理出来。如果你也想在小程序里加个AI助手，这篇文章应该能帮你省不少时间。

1. 项目准备：理清思路与搭建环境

在动手写代码之前，得先把整个流程想清楚。我们的目标是：用户在微信小程序里输入问题，小程序把问题发给咱们自己部署好的AI模型服务器，服务器处理完再把答案传回小程序，最后显示给用户。

听起来就是“请求-响应”这么简单，但微信小程序有自己的一套规则，不能随便访问外网。所以，我们需要一个自己的后端服务器，作为小程序和AI模型之间的“中间人”。这个服务器部署在星图GPU平台上，上面跑着Cogito-V1-Preview-Llama-3B模型。

你需要准备的东西：

一个微信小程序账号：去微信公众平台注册，拿到小程序的AppID。
一个后端服务器：我用的星图GPU平台，它预置了环境，部署模型比较省心。你需要有平台的账号，并成功部署了Cogito-V1-Preview-Llama-3B模型，拿到它的API访问地址（比如 https://your-server-address/v1/chat/completions）。
代码编辑器：小程序前端用微信开发者工具，后端我用的VS Code。

关于模型选择 为什么选Cogito-V1-Preview-Llama-3B？主要是考虑到小程序的场景。它参数量是30亿，在轻量级模型里表现均衡，对话能力、逻辑推理都够用，生成速度也相对较快。最关键的是，它对服务器资源要求没那么高，部署和运行的成本更友好，非常适合作为小程序的后端服务。

2. 后端搭建：让AI模型准备好接客

后端的工作很简单，就是提供一个API接口。小程序发来一段对话内容，后端调用Cogito模型生成回复，然后再把回复传回去。这里我用Python的FastAPI来写，因为它轻快，适合这种IO密集型的网络服务。

首先，确保你的服务器上已经部署好了模型，并且知道怎么用代码去调用它。假设模型服务本身已经在运行并提供了API。

第一步，安装必要的包：

pip install fastapi uvicorn httpx

httpx 用来作为HTTP客户端，去请求我们部署的模型服务。

第二步，编写核心的后端API： 我们在项目根目录创建一个 main.py 文件。

from fastapi import FastAPI, HTTPException from fastapi.middleware.cors import CORSMiddleware import httpx import json from pydantic import BaseModel from typing import List, Optional # 定义请求体的数据模型，这决定了小程序要传什么数据过来 class ChatMessage(BaseModel): role: str # 角色，比如 “user” 或 “assistant” content: str # 消息内容 class ChatRequest(BaseModel): messages: List[ChatMessage] # 对话历史列表 max_tokens: Optional[int] = 500 # 生成回复的最大长度，可选，给个默认值 # 初始化FastAPI应用 app = FastAPI(title="小程序AI对话后端") # 关键步骤：配置CORS（跨域资源共享） # 因为小程序的前端域名和咱们后端域名不同，不配置这个，请求会被浏览器拦截。 app.add_middleware( CORSMiddleware, allow_origins=["*"], # 在生产环境中，这里应该替换成你小程序的真实域名，更安全 allow_credentials=True, allow_methods=["*"], allow_headers=["*"], ) # 这里替换成你部署在星图平台上的Cogito模型API地址 MODEL_API_URL = "https://your-mirror-server-address/v1/chat/completions" @app.post("/chat") async def chat_with_ai(request: ChatRequest): """ 处理小程序发来的聊天请求。 """ # 准备请求给AI模型的数据 payload = { "model": "cogito-v1-preview-llama-3b", # 指定模型名称 "messages": [msg.dict() for msg in request.messages], "max_tokens": request.max_tokens, "stream": False # 我们先处理非流式响应，更简单 } async with httpx.AsyncClient(timeout=30.0) as client: # 设置一个较长的超时时间，因为生成文本可能需要一会儿 try: # 将请求转发给真正的模型API response = await client.post(MODEL_API_URL, json=payload) response.raise_for_status() # 如果请求失败（状态码不是2xx），抛出异常 result = response.json() # 从模型返回的复杂结果中，提取出我们需要的纯文本回复 ai_reply = result["choices"][0]["message"]["content"] return {"reply": ai_reply} except httpx.RequestError as e: # 处理网络错误，比如连接不上模型服务器 raise HTTPException(status_code=503, detail=f"无法连接AI服务: {str(e)}") except (KeyError, IndexError, json.JSONDecodeError) as e: # 处理模型返回的数据格式不符合预期的情况 raise HTTPException(status_code=500, detail=f"解析AI响应时出错: {str(e)}") except Exception as e: # 捕获其他所有未知错误 raise HTTPException(status_code=500, detail=f"服务器内部错误: {str(e)}") # 一个健康检查接口，用来测试后端是否正常启动 @app.get("/health") async def health_check(): return {"status": "ok", "service": "mini-program-ai-backend"}

代码说明：

CORSMiddleware 是重中之重，没有它，小程序无法调用这个接口。
我们定义了一个 /chat 接口，它接收包含对话历史的 messages。这样我们就能实现多轮对话，模型能根据之前的聊天记录来理解上下文。
后端在这里主要起代理和适配器的作用。它接收小程序的请求，转换成模型API认识的格式，发过去，再把模型的回复“翻译”成小程序认识的简单格式（{“reply”: “…”}）传回去。
错误处理很重要。网络请求、模型服务、数据解析都可能出错，用 try…except 包起来，给前端返回明确的错误信息，而不是直接崩溃。

运行后端： 在服务器上，运行：

uvicorn main:app --host 0.0.0.0 --port 8000 --reload

这样，你的后端服务就在 http://你的服务器IP:8000 上跑起来了。可以用浏览器访问 http://你的服务器IP:8000/health 测试一下。

3. 前端开发：构建小程序的对话界面

后端准备好了，现在来打造小程序的前端。主要做两件事：做一个好看的聊天界面，以及编写逻辑去调用我们刚写好的后端接口。

3.1 页面布局与样式

我们创建一个聊天页面 pages/chat/chat。先看 chat.wxml，这是页面的结构。

<!-- pages/chat/chat.wxml --> <view> <!-- 聊天消息区域 --> <scroll-view scroll-y scroll-into-view="{{'msg-' + (messageList.length - 1)}}" scroll-with-animation> <block wx:for="{{messageList}}" wx:key="index"> <view> <view> <image wx:if="{{item.role === 'user'}}" src="/images/user-avatar.png"></image> <image wx:else src="/images/ai-avatar.png"></image> </view> <view> <text>{{item.content}}</text> <!-- 加载指示器 --> <view wx:if="{{item.role === 'assistant' && item.loading}}"> <text>.</text><text>.</text><text>.</text> </view> </view> </view> </block> </scroll-view> <!-- 底部输入区域 --> <view> <input value="{{inputValue}}" bindinput="onInput" placeholder="输入你的问题..." confirm-type="send" bindconfirm="sendMessage" focus="{{autoFocus}}" /> <button bindtap="sendMessage" disabled="{{isSending}}"> {{isSending ? '发送中' : '发送'}} </button> </view> </view>

为了让聊天界面看起来舒服，需要一些样式 chat.wxss：

/* pages/chat/chat.wxss */ .chat-container { height: 100vh; display: flex; flex-direction: column; background-color: #f5f5f5; } .message-list { flex: 1; padding: 20rpx; box-sizing: border-box; overflow: auto; } .message-item { display: flex; margin-bottom: 30rpx; align-items: flex-start; } .message-item.user { flex-direction: row-reverse; } .avatar image { width: 80rpx; height: 80rpx; border-radius: 50%; } .bubble { max-width: 65%; padding: 20rpx 30rpx; border-radius: 12rpx; margin: 0 20rpx; word-break: break-word; line-height: 1.5; } .user .bubble { background-color: #95ec69; color: #000; } .assistant .bubble { background-color: #fff; color: #333; box-shadow: 0 2rpx 10rpx rgba(0,0,0,0.1); } .loading-dots text { animation: blink 1.4s infinite; font-size: 40rpx; margin-right: 4rpx; } .loading-dots text:nth-child(2) { animation-delay: 0.2s; } .loading-dots text:nth-child(3) { animation-delay: 0.4s; } @keyframes blink { 0%, 100% { opacity: 0.2; } 50% { opacity: 1; } } .input-area { display: flex; padding: 20rpx; background-color: #fff; border-top: 1rpx solid #eee; align-items: center; } .input-box { flex: 1; padding: 20rpx 30rpx; border: 1rpx solid #ddd; border-radius: 40rpx; margin-right: 20rpx; font-size: 28rpx; } .send-btn { background-color: #07c160; color: white; border-radius: 40rpx; padding: 0 40rpx; font-size: 28rpx; } .send-btn[disabled] { background-color: #ccc; }

3.2 核心逻辑与网络请求

界面有了，灵魂在 chat.js 里。这里处理用户输入、发送请求、管理对话历史。

// pages/chat/chat.js // 这里填写你刚刚部署的后端服务器地址 const API_BASE_URL = 'https://your-backend-server.com'; Page({ data: { inputValue: '', // 输入框的内容 messageList: [], // 所有的聊天消息 isSending: false, // 是否正在发送请求，用来防止重复点击 autoFocus: true, // 自动聚焦输入框 }, onLoad() { // 页面加载时，可以尝试从本地缓存读取历史对话 const history = wx.getStorageSync('aiChatHistory'); if (history && Array.isArray(history)) { this.setData({ messageList: history }); } }, // 监听输入框变化 onInput(e) { this.setData({ inputValue: e.detail.value }); }, // 发送消息的核心函数 async sendMessage() { const { inputValue, messageList, isSending } = this.data; if (!inputValue.trim() || isSending) { return; // 空消息或正在发送时，不做任何事 } // 1. 先把用户的消息显示在界面上 const userMessage = { role: 'user', content: inputValue }; const newList = [...messageList, userMessage]; this.setData({ messageList: newList, inputValue: '', // 清空输入框 isSending: true, }); // 2. 在界面上添加一个“AI正在思考”的占位消息 const thinkingMessage = { role: 'assistant', content: '', loading: true }; this.setData({ messageList: [...newList, thinkingMessage] }); // 3. 准备请求数据：发送整个对话历史，让AI知道上下文 const requestMessages = newList.map(msg => ({ role: msg.role, content: msg.content })); try { // 4. 调用我们自己的后端接口 const response = await new Promise((resolve, reject) => { wx.request({ url: `${API_BASE_URL}/chat`, // 你的后端/chat接口 method: 'POST', data: { messages: requestMessages, max_tokens: 300 // 控制回复长度 }, header: { 'content-type': 'application/json' }, success: resolve, fail: reject }); }); if (response.statusCode === 200) { // 5. 请求成功，用AI的回复替换掉“正在思考”的占位消息 const aiReply = response.data.reply; const finalList = [...newList]; finalList.pop(); // 移除loading占位 finalList.push({ role: 'assistant', content: aiReply }); this.setData({ messageList: finalList }); // 保存到本地缓存 wx.setStorageSync('aiChatHistory', finalList); } else { // 处理后端返回的业务错误（如状态码400, 500等） throw new Error(`请求失败: ${response.statusCode}`); } } catch (error) { // 6. 处理网络错误或请求异常 console.error('发送消息失败:', error); wx.showToast({ title: '网络好像不太给力，请稍后再试', icon: 'none' }); // 出错时，移除“正在思考”的占位消息 const finalList = [...newList]; finalList.pop(); this.setData({ messageList: finalList }); } finally { // 7. 无论成功失败，都重置发送状态 this.setData({ isSending: false }); } }, })

关键点解析：

对话历史管理：每次发送消息，都把整个 messageList 传给后端。这样模型就能看到之前所有的对话，实现连贯的多轮聊天。同时，我们把历史记录在本地 (wx.setStorageSync)，用户下次打开小程序还能看到。
用户体验优化：用户一发送消息，我们立即在界面上显示他的提问，并添加一个“AI正在思考”的动画效果。这让用户感知到程序正在工作，而不是卡住了。等收到AI回复后，再替换这个占位符。
错误处理：用 try…catch 包裹网络请求。如果失败，给用户一个友好的提示（而不是一堆错误代码），并清理界面上的加载状态。

4. 关键问题与优化方案

把基础功能跑通只是第一步，真要上线，还得解决一些实际体验问题。

4.1 应对网络延迟：给用户一个“正在处理”的反馈

AI生成文本需要时间，尤其是网络慢的时候。如果用户点了发送，界面毫无反应好几秒，他很可能以为程序坏了，会反复点击。我们的方案是前面提到的“立即显示+加载动画”。在 sendMessage 函数里，先更新界面，再发起网络请求。这个视觉反馈至关重要。

4.2 管理对话长度与上下文

模型能处理的上下文长度是有限的（比如4096个token）。如果聊天历史太长，要么会出错，要么会丢失最早的信息。 优化方案： 在后端 /chat 接口处理请求之前，可以对传入的 messages 列表做一个裁剪。

# 在main.py的chat_with_ai函数中，添加一个裁剪历史的函数 def trim_messages(messages: List[ChatMessage], max_history_turns: int = 10) -> List[ChatMessage]: """ 保留最近N轮对话，并确保总token数不会太长（这里简化处理，按轮次裁剪）。 更精细的做法是计算token数，但需要模型对应的tokenizer。 """ # 简单策略：只保留最近 max_history_turns 轮对话。 # 通常保留用户和AI的最近几次交替发言即可。 if len(messages) <= max_history_turns * 2: # 假设一轮包含用户和AI各一条消息 return messages return messages[-(max_history_turns * 2):] # 在chat_with_ai函数中调用 @app.post("/chat") async def chat_with_ai(request: ChatRequest): trimmed_messages = trim_messages(request.messages, max_history_turns=5) payload = { "model": "cogito-v1-preview-llama-3b", "messages": [msg.dict() for msg in trimmed_messages], # 使用裁剪后的历史 # ... 其他参数 } # ... 后续请求逻辑

这样，无论用户聊了多久，我们只把最近5轮对话（10条消息）发给模型，既能维持一定的上下文，又不会超限。

4.3 提升回复质量与安全性

直接从模型生成的回复，有时可能不符合我们的要求，或者包含我们不希望出现的内容。 优化方案： 在后端返回给小程序之前，对AI的回复进行一次“后处理”。

# 在main.py中，添加一个后处理函数 def postprocess_reply(text: str) -> str: """ 对模型生成的回复进行后处理。 1. 过滤敏感词。 2. 确保回复格式友好（如去掉多余的空行）。 3. 如果回复太短或无意义，可以返回一个默认提示。 """ # 示例：简单的敏感词过滤（实际应用需要更完善的词库） sensitive_words = ["暴力", "仇恨"] # 示例词库，请根据实际情况扩充 for word in sensitive_words: if word in text: text = text.replace(word, "**") # 示例：如果回复过短，可能是模型没理解，提示用户重新提问 if len(text.strip()) < 5: return “我好像没太明白你的意思，能换个方式问问吗？” # 整理格式 text = text.strip() return text # 在chat_with_ai函数中，提取回复后调用 @app.post("/chat") async def chat_with_ai(request: ChatRequest): # ... 前面的请求和获取ai_reply的代码 ... processed_reply = postprocess_reply(ai_reply) return {"reply": processed_reply}

这是一个简单的示例，真实场景可能需要接入更专业的内容审核API。

5. 总结

走完这一趟，你会发现，在微信小程序里集成一个像Cogito-V1-Preview-Llama-3B这样的AI对话功能，核心思路就是“前端收集对话，后端转发处理”。技术难点不在于算法本身，而在于如何在小程序的框架下，做好网络通信、状态管理和用户体验。

这套方案跑起来后，效果还是挺不错的。对话比较流畅，响应速度也能接受。当然，在实际运营中可能会遇到新问题，比如流量大了服务器压力怎么办，回复内容如何更精准地控制。这些问题都可以在现有框架上继续优化，比如给后端加个缓存，或者对不同的用户提问做更细致的分类处理。

如果你正准备做类似的功能，建议你先按这个流程把最小可用的版本搭起来，让对话能跑通。然后再根据你的具体业务需求，去添加历史记录清空、多主题对话、语音输入等更酷的功能。最重要的是，多从用户角度想想，怎么让这个AI助手用起来更自然、更贴心。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 ZEEKLOG星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Cogito-V1-Preview-Llama-3B 微信小程序开发：集成AI对话功能指南

Ne0inhk