前言
随着大语言模型(LLM)在各类任务中的强大表现,从问答系统到代码生成,从写作助手到数据分析,越来越多的开发者和研究人员希望将这些模型集成到自己的工作流程或产品中。Python 作为最主流的 AI 开发语言,提供了丰富的生态工具,能够灵活、高效地调用各类大模型。
本篇内容旨在帮助开发者掌握不同的 API 调用方式来与各种 LLM 服务进行交互。本文分析了四种不同的 LLM API 调用脚本,涵盖了从最基础的 HTTP 请求到高级 SDK 的使用方法。
1. 原生 HTTP 请求方式
1.1 核心特点
- 使用 Python 的
requests库直接发送 HTTP 请求- 调用本地部署的 Qwen 模型
- 采用 OpenAI 兼容的 API 格式
1.2 关键代码分析
# 请求体结构
data = {
"model": "/models/Qwen2___5-32B-Instruct-AWQ",
"messages": [
{"role": "user", "content": "分析当前全球经济形势,并提出你的见解"}
],
"max_tokens": 2048,
"temperature": 0.7,
"top_k": 1,
"top_p": 0.75,
}
1.3 优势和适用场景
优势:
- 灵活性最高,可以完全自定义请求参数
- 不依赖特定 SDK,减少依赖
- 适合需要精确控制请求细节的场景
适用场景:
- 自定义 LLM 服务调用
- 需要特殊请求头或认证方式
- 对性能要求较高的生产环境
1.4 完整代码
import requests
import json
# 本地服务的 API 端点
url = "http://127.0.0.1:6790/v1/chat/completions"
# 请求头
headers = {
"Content-Type": "application/json",
# "Authorization": "Bearer your_api_key" # 如果需要的话
}
# 请求体
data = {
"model": "/models/Qwen2___5-32B-Instruct-AWQ",
: [
{: , : }
],
: ,
: ,
: ,
: ,
}
response = requests.post(url, headers=headers, data=json.dumps(data))
response.status_code == :
response_data = response.json()
(response_data[][][][])
:
()
(response.text)

