【大模型】API 对接指南：OpenAI/Claude/LLaMA 3 调用技巧

【大模型】API 对接指南：OpenAI/Claude/LLaMA 3 调用技巧 | 极客日志

import os from openai import OpenAI from openai.error import RateLimitError, AuthenticationError, APIError # 初始化客户端（推荐 v1.x 版本方式）# 方式1：通过环境变量设置 API Key（推荐，避免硬编码） os.environ["OPENAI_API_KEY"]="your-openai-api-key" client = OpenAI()# 方式2：直接传入 API Key（不推荐，存在安全风险）# client = OpenAI(api_key="your-openai-api-key")defcall_openai(prompt:str, model:str="gpt-4o-mini")->str:""" 调用 OpenAI API 生成文本 :param prompt: 用户输入提示词 :param model: 模型名称，如 gpt-4o、gpt-4o-mini、gpt-3.5-turbo :return: 生成的文本内容 """try:# 构建请求 response = client.chat.completions.create( model=model, messages=[{"role":"system","content":"你是一个专业的技术助手，回答简洁准确。"},{"role":"user","content": prompt}], temperature=0.7,# 随机性，0-2 之间，值越高越随机 max_tokens=1024,# 最大生成 token 数 timeout=30# 请求超时时间)# 提取生成结果 result = response.choices[0].message.content.strip()# 打印 token 消耗（用于成本核算）print(f"Token 消耗：输入 {response.usage.prompt_tokens} | 输出 {response.usage.completion_tokens}")return result except AuthenticationError:print("错误：API Key 认证失败，请检查密钥是否正确")return""except RateLimitError:print("错误：API 调用速率超限，请等待或升级额度")return""except APIError as e:print(f"错误：OpenAI API 调用失败 - {e}")return""except Exception as e:print(f"未知错误：{e}")return""# 调用示例if __name__ =="__main__": prompt ="解释一下大模型的 token 计费机制" result = call_openai(prompt)print("OpenAI 响应结果：\n", result)

import os import anthropic from anthropic import AnthropicError, RateLimitError, AuthenticationError # 初始化客户端 os.environ["ANTHROPIC_API_KEY"]="your-anthropic-api-key" client = anthropic.Anthropic()defcall_claude(prompt:str, model:str="claude-3-5-sonnet-20240620")->str:""" 调用 Claude API 生成文本 :param prompt: 用户输入提示词 :param model: 模型名称，如 claude-3-5-sonnet、claude-3-opus :return: 生成的文本内容 """try: response = client.messages.create( model=model, max_tokens=1024, temperature=0.7, system="你是一个专业的技术助手，回答简洁准确。", messages=[{"role":"user","content": prompt}])# 提取结果（Claude 返回的是 content 列表，需拼接） result ="".join([content.text for content in response.content]).strip()print(f"Token 消耗：输入 {response.usage.input_tokens} | 输出 {response.usage.output_tokens}")return result except AuthenticationError:print("错误：API Key 认证失败，请检查密钥")return""except RateLimitError:print("错误：调用速率超限，请稍后重试")return""except AnthropicError as e:print(f"错误：Claude API 调用失败 - {e}")return""except Exception as e:print(f"未知错误：{e}")return""# 调用示例if __name__ =="__main__": prompt ="解释一下大模型的 token 计费机制" result = call_claude(prompt)print("Claude 响应结果：\n", result)

import requests import json from typing import Optional # Ollama 默认本地端口：11434 OLLAMA_BASE_URL ="http://localhost:11434/api"defcall_llama3(prompt:str, model:str="llama3:8b", stream:bool=False)-> Optional[str]:""" 通过 Ollama 调用本地部署的 LLaMA 3 :param prompt: 用户输入提示词 :param model: 模型名称（需先通过 ollama pull 下载） :param stream: 是否流式返回 :return: 生成的文本内容 """# 构建请求数据 data ={"model": model,"prompt": prompt,"system":"你是一个专业的技术助手，回答简洁准确。","temperature":0.7,"max_tokens":1024,"stream": stream }try:# 非流式调用ifnot stream: response = requests.post(f"{OLLAMA_BASE_URL}/generate", json=data, timeout=60# 本地推理可能较慢，设置较长超时) response.raise_for_status()# 抛出 HTTP 错误 result = response.json()["response"].strip()print(f"Token 消耗：输入 {response.json()['prompt_eval_count']} | 输出 {response.json()['eval_count']}")return result # 流式调用（逐字返回）else: result =""with requests.post(f"{OLLAMA_BASE_URL}/generate", json=data, stream=True, timeout=60)as response: response.raise_for_status()for line in response.iter_lines():if line: line_data = json.loads(line)if"response"in line_data: result += line_data["response"]# 实时打印（可选）# print(line_data["response"],, flush=True)if line_data.get("done"):print(f"\nToken 消耗：输入 {line_data['prompt_eval_count']} | 输出 {line_data['eval_count']}")return result.strip()except requests.exceptions.ConnectionError:print("错误：无法连接到 Ollama 服务，请确认服务已启动（ollama serve）")returnNoneexcept requests.exceptions.Timeout:print("错误：请求超时，本地推理耗时过长")returnNoneexcept Exception as e:print(f"未知错误：{e}")returnNone# 调用示例if __name__ =="__main__": prompt ="解释一下大模型的 token 计费机制"# 非流式调用 result = call_llama3(prompt)print("LLaMA 3 响应结果：\n", result)# 流式调用（可选）# result = call_llama3(prompt, stream=True)# print("\nLLaMA 3 流式响应结果：\n", result)

from tenacity import retry, stop_after_attempt, wait_exponential @retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1,min=2,max=10))defcall_api_with_retry(prompt):return call_openai(prompt)

import tiktoken encoder = tiktoken.encoding_for_model("gpt-4o-mini") token_count =len(encoder.encode(prompt))

【大模型】API 对接指南：OpenAI/Claude/LLaMA 3 调用技巧

目录

引言：多模型 API 调用——构建灵活 AI 应用的核心能力

更多推荐文章

相关免费在线工具

一、各平台调用详解

1. OpenAI API（GPT-4o/GPT-4 Turbo）

核心特点

前置准备

2. Claude API（Anthropic SDK）

核心特点

前置准备

3. LLaMA 3（本地部署调用）

核心特点

前置准备

二、代码示例：三大模型调用实现

1. 调用 OpenAI API 生成文本

2. 使用 Anthropic SDK 调用 Claude

3. 通过 Ollama 本地调用 LLaMA 3

三、统一抽象层调用多模型 API 流程图

流程图解读

四、最佳实践与避坑指南

1. 速率限制处理

2. Token 计费优化

3. Prompt 工程技巧

4. 私有部署安全建议（LLaMA 3）

5. 常见坑点规避

总结

更多推荐文章

相关免费在线工具

【大模型 】API 对接指南：OpenAI/Claude/LLaMA 3 调用技巧

目录

引言：多模型 API 调用——构建灵活 AI 应用的核心能力

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

一、各平台调用详解

1. OpenAI API（GPT-4o/GPT-4 Turbo）

核心特点

前置准备

2. Claude API（Anthropic SDK）

核心特点

前置准备

3. LLaMA 3（本地部署调用）

核心特点

前置准备

二、代码示例：三大模型调用实现

1. 调用 OpenAI API 生成文本

2. 使用 Anthropic SDK 调用 Claude

3. 通过 Ollama 本地调用 LLaMA 3

三、统一抽象层调用多模型 API 流程图

流程图解读

四、最佳实践与避坑指南

1. 速率限制处理

2. Token 计费优化

3. Prompt 工程技巧

4. 私有部署安全建议（LLaMA 3）

5. 常见坑点规避

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

【大模型】API 对接指南：OpenAI/Claude/LLaMA 3 调用技巧