Workers AI 使用指南：免费额度与成本优化实践 | 极客日志

JavaScriptNode.jsAI

Workers AI 使用指南：免费额度与成本优化实践

Workers AI 是 Cloudflare 提供的无服务器 AI 推理服务，提供每日 10,000 Neurons 免费额度及边缘网络加速。相比 OpenAI，其成本显著降低，适合个人项目及中小规模应用。支持多种开源模型如 Llama 3.1、Mistral 等。可通过 REST API、Wrangler 部署 Worker 或 OpenAI SDK 兼容接口调用。涵盖配置步骤、成本计算、模型选择及实战案例，帮助开发者快速上手并优化成本。

清心发布于 2026/4/6更新于 2026/5/2250 浏览

Workers AI 使用指南

图片描述

初次接触 OpenAI 账单时，发现成本较高。对于小项目测试，寻找免费或低成本的替代方案至关重要。Cloudflare 推出的 Workers AI 提供了无服务器 AI 推理服务，无需自建 GPU 或管理服务器，即可调用 Llama、Mistral 等开源大模型。

Workers AI 核心优势

1. 免费额度

每天 10,000 Neurons：实测可处理数百次对话，个人项目完全够用。
使用 Llama 3.1-8B 模型，1000 次简单对话约消耗 8000 Neurons。

2. 付费价格

$0.011/1000 Neurons：比 OpenAI GPT-3.5 便宜 60-70%，比 GPT-4 便宜 90% 以上。

3. 全球边缘网络加速

Cloudflare 拥有 300+ 个节点，响应速度优于部分云服务商。

方案对比

方案	免费额度	付费价格	响应速度	模型选择
Workers AI	10,000 Neurons/天	$0.011/1k Neurons	快 (边缘节点)	50+ 开源模型
OpenAI API	$5 新用户 (一次性)	$0.002/1k tokens (GPT-3.5)	中等	GPT 系列
HuggingFace	有限免费调用	按模型计费	较慢	海量模型
自建服务器	-	GPU 租用成本高	取决于配置	任意模型

适用场景：

✅ 个人项目、原型验证、学习实验
✅ 中小规模生产应用 (QPS < 300)
✅ 对成本敏感的初创项目

不适用场景：

⚠️ 大规模批量处理 (每天几十万次调用)
⚠️ 对延迟极度敏感的实时应用 (需要 < 100ms 响应)
⚠️ 需要最新 GPT-4 级别模型的场景

免费额度计算

Neurons 是 Cloudflare 定义的计费单位： Neurons = (输入 tokens + 输出 tokens) × 模型系数

不同模型系数示例：

Llama 3.1-8B: 系数约 0.8
Llama 3.1-70B: 系数约 3.5
Mistral 7B: 系数约 0.7

实际用量估算 (Llama 3.1-8B 中文对话)：

简单问答 (100 字以内): 每次消耗 5-8 Neurons

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Keycode 信息
查找任何按下的键的javascript键代码、代码、位置和修饰符。在线工具，Keycode 信息在线工具，online
Escape 与 Native 编解码
JavaScript 字符串转义/反转义；Java 风格 \uXXXX（Native2Ascii）编码与解码。在线工具，Escape 与 Native 编解码在线工具，online
JavaScript / HTML 格式化
使用 Prettier 在浏览器内格式化 JavaScript 或 HTML 片段。在线工具，JavaScript / HTML 格式化在线工具，online

curl https://api.cloudflare.com/client/v4/accounts/{你的Account_ID}/ai/run/@cf/meta/llama-3.1-8b-instruct \
  -H "Authorization: Bearer {你的API_Token}" \
  -H "Content-Type: application/json" \
  -d '{ "messages": [ {"role": "system", "content": "你是一个友好的 AI 助手"}, {"role": "user", "content": "用一句话介绍一下 Cloudflare Workers AI"} ] }'

npm install -g wrangler
wrangler login

npm create cloudflare@latest my-ai-worker

[ai]
binding = "AI"

export default {
  async fetch(request, env) {
    // 处理 CORS
    if (request.method === 'OPTIONS') {
      return new Response(null, {
        headers: {
          'Access-Control-Allow-Origin': '*',
          'Access-Control-Allow-Methods': 'POST',
          'Access-Control-Allow-Headers': 'Content-Type',
        },
      });
    }
    if (request.method !== 'POST') {
      return new Response('Method not allowed', { status: 405 });
    }
    try {
      const { messages } = await request.json();
      const response = await env.AI.run('@cf/meta/llama-3.1-8b-instruct', {
        messages: messages || [{ role: 'user', content: 'Hello!' }],
      });
      return new Response(JSON.stringify(response), {
        headers: {
          'Content-Type': 'application/json',
          'Access-Control-Allow-Origin': '*',
        },
      });
    } catch (error) {
      return new Response(JSON.stringify({ error: error.message }), {
        status: 500,
        headers: { 'Content-Type': 'application/json' },
      });
    }
  },
};

wrangler dev
# 测试 http://localhost:8787
wrangler deploy

import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.CLOUDFLARE_API_TOKEN,
  baseURL: `https://api.cloudflare.com/client/v4/accounts/${process.env.ACCOUNT_ID}/ai/v1`,
});

const chatCompletion = await client.chat.completions.create({
  model: '@cf/meta/llama-3.1-8b-instruct',
  messages: [
    { role: 'system', content: '你是一个友好的 AI 助手' },
    { role: 'user', content: 'Hello!' },
  ],
});
console.log(chatCompletion.choices[0].message.content);

模型	参数量	特点	推荐场景	模型 ID
Llama 3.1	8B	平衡性好，速度快	日常对话、客服、摘要	`@cf/meta/llama-3.1-8b-instruct`
Llama 3.1	70B	质量更高，慢一点	复杂推理、长文本	`@cf/meta/llama-3.1-70b-instruct`
Mistral 7B v0.2	7B	32k 上下文	长文档分析	`@cf/mistral/mistral-7b-instruct-v0.2`
DeepSeek-R1	32B	推理能力强	数学、代码、逻辑	`@cf/deepseek/deepseek-r1-distill-qwen-32b`

export default {
  async fetch(request, env) {
    const corsHeaders = {
      'Access-Control-Allow-Origin': '*',
      'Access-Control-Allow-Methods': 'POST, OPTIONS',
      'Access-Control-Allow-Headers': 'Content-Type',
    };
    if (request.method === 'OPTIONS') return new Response(null, { headers: corsHeaders });
    try {
      const { question } = await request.json();
      const messages = [
        { role: 'system', content: '你是一个技术博客的 AI 助手...' },
        { role: 'user', content: question },
      ];
      const response = await env.AI.run('@cf/meta/llama-3.1-8b-instruct', { messages });
      return new Response(JSON.stringify({ answer: response.response }), {
        headers: { ...corsHeaders, 'Content-Type': 'application/json' },
      });
    } catch (error) {
      return new Response(JSON.stringify({ error: '处理失败' }), { status: 500, headers: { ...corsHeaders, 'Content-Type': 'application/json' } });
    }
  },
};

async function generateSummary(text, env) {
  const messages = [
    { role: 'system', content: '你是一个专业的文本摘要助手...' },
    { role: 'user', content: text },
  ];
  const response = await env.AI.run('@cf/meta/llama-3.1-8b-instruct', { messages, max_tokens: 150 });
  return response.response;
}

async function translate(text, targetLang, env) {
  const messages = [
    { role: 'system', content: `将用户输入翻译成 ${targetLang}...` },
    { role: 'user', content: text },
  ];
  const response = await env.AI.run('@cf/meta/llama-3.1-8b-instruct', { messages });
  return response.response;
}

const response = await env.AI.run('@cf/meta/llama-3.1-8b-instruct', { messages, stream: true });
return new Response(response, { headers: { 'Content-Type': 'text/event-stream' } });

await env.AI.run('@cf/meta/llama-3.1-8b-instruct', { messages, max_tokens: 100 });

// app/api/ai/route.ts
export const runtime = 'edge';
export async function POST(request: NextRequest) {
  const { messages } = await request.json();
  const response = await fetch(`https://api.cloudflare.com/client/v4/accounts/${process.env.ACCOUNT_ID}/ai/run/@cf/meta/llama-3.1-8b-instruct`, {
    method: 'POST',
    headers: { 'Authorization': `Bearer ${process.env.CF_API_TOKEN}`, 'Content-Type': 'application/json' },
    body: JSON.stringify({ messages }),
  });
  return NextResponse.json(await response.json());
}

Workers AI 使用指南：免费额度与成本优化实践

Workers AI 使用指南

Workers AI 核心优势

1. 免费额度

2. 付费价格

3. 全球边缘网络加速

方案对比

免费额度计算

更多推荐文章

相关免费在线工具

快速上手：三种调用方式

方式一：REST API

方式二：Wrangler 部署 Worker

方式三：OpenAI SDK 兼容接口

模型选择建议

实战案例

案例 1: 智能问答 API

案例 2: 批量文本摘要

案例 3: 多语言翻译

进阶技巧

1. 流式响应

2. 限制输出长度

3. AI Gateway

4. Next.js 集成

常见问题

总结

更多推荐文章

相关免费在线工具

Workers AI 使用指南：免费额度与成本优化实践

Workers AI 使用指南

Workers AI 核心优势

1. 免费额度

2. 付费价格

3. 全球边缘网络加速

方案对比

免费额度计算

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

快速上手：三种调用方式

方式一：REST API

方式二：Wrangler 部署 Worker

方式三：OpenAI SDK 兼容接口

模型选择建议

实战案例

案例 1: 智能问答 API

案例 2: 批量文本摘要

案例 3: 多语言翻译

进阶技巧

1. 流式响应

2. 限制输出长度

3. AI Gateway

4. Next.js 集成

常见问题

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具