【Model】【llm38】Llama API - 示例

优质文章学习记录

09 Apr 2026 — 6 min read

案例目标

Llama API是一个托管的Llama 2 API服务，支持函数调用功能。本案例展示了如何通过LlamaIndex集成Llama API，实现基本的文本补全、对话交互、函数调用和结构化数据提取功能。Llama API为开发者提供了一个便捷的方式来使用Llama 2模型，无需本地部署，可以直接通过API调用模型服务，大大简化了使用流程。同时，该API支持函数调用功能，使得模型能够与外部工具和服务进行交互，扩展了应用场景。

环境配置

1. 安装依赖

安装必要的依赖包：

%pip install llama-index-program-openai %pip install llama-index-llms-llama-api !pip install llama-index

2. 获取API密钥

要运行此示例，您需要从Llama API官网获取API密钥。

3. 导入库并设置API密钥

导入必要的库并设置API密钥：

from llama_index.llms.llama_api import LlamaAPI api_key = "LL-your-key" llm = LlamaAPI(api_key=api_key)

案例实现

1. 基本用法 - 文本补全

使用complete方法进行文本补全：

resp = llm.complete("Paul Graham is ") print(resp)

输出示例：

Paul Graham is a well-known computer scientist and entrepreneur, best known for his work as a co-founder of Viaweb and later Y Combinator, a successful startup accelerator. He is also a prominent essayist and has written extensively on topics such as entrepreneurship, software development, and the tech industry.

2. 基本用法 - 对话交互

使用chat方法进行对话交互：

from llama_index.core.llms import ChatMessage messages = [ ChatMessage( role="system", content="You are a pirate with a colorful personality" ), ChatMessage(role="user", content="What is your name"), ] resp = llm.chat(messages) print(resp)

输出示例：

assistant: Arrrr, me hearty! Me name be Captain Blackbeak, the scurviest dog on the seven seas! Yer lookin' fer a swashbucklin' adventure, eh? Well, hoist the sails and set course fer the high seas, matey! I be here to help ye find yer treasure and battle any scurvy dogs who dare cross our path! So, what be yer first question, landlubber?

3. 函数调用

使用函数调用功能，定义一个Song模型：

from pydantic import BaseModel from llama_index.core.llms.openai_utils import to_openai_function class Song(BaseModel): """A song with name and artist""" name: str artist: str song_fn = to_openai_function(Song)

使用函数调用生成歌曲信息

llm = LlamaAPI(api_key=api_key) response = llm.complete("Generate a song", functions=[song_fn]) function_call = response.additional_kwargs["function_call"] print(function_call)

输出示例：

{'name': 'Song', 'arguments': {'name': 'Happy', 'artist': 'Pharrell Williams'}}

4. 结构化数据提取

定义Album和Song模型，用于结构化数据提取：

from pydantic import BaseModel from typing import List class Song(BaseModel): """Data model for a song.""" title: str length_mins: int class Album(BaseModel): """Data model for an album.""" name: str artist: str songs: List[Song]

创建Pydantic程序

from llama_index.program.openai import OpenAIPydanticProgram"\ Extract album and songs from the text provided. For each song, make sure to specify the title and the length_mins. {text} """ llm = LlamaAPI(api_key=api_key, temperature=0.0) program = OpenAIPydanticProgram.from_defaults( output_cls=Album, llm=llm, prompt_template_str=prompt_template_str, verbose=True, )

运行程序提取结构化数据

output = program(" "Echoes of Eternity" is a compelling and thought-provoking album, skillfully crafted by the renowned artist, Seraphina Rivers. \ This captivating musical collection takes listeners on an introspective journey, delving into the depths of the human experience \ and the vastness of the universe. With her mesmerizing vocals and poignant songwriting, Seraphina Rivers infuses each track with \ raw emotion and a sense of cosmic wonder. The album features several standout songs, including the hauntingly beautiful "Stardust \ Serenade," a celestial ballad that lasts for six minutes, carrying listeners through a celestial dreamscape. "Eclipse of the Soul" \ captivates with its enchanting melodies and spans over eight minutes, inviting introspection and contemplation. Another gem, "Infinity \ Embrace," unfolds like a cosmic odyssey, lasting nearly ten minutes, drawing listeners deeper into its ethereal atmosphere. "Echoes of Eternity" \ is a masterful testament to Seraphina Rivers' artistic prowess, leaving an enduring impact on all who embark on this musical voyage through \ time and space. """ )

输出示例：

Function call: Album with args: {'name': 'Echoes of Eternity', 'artist': 'Seraphina Rivers', 'songs': [{'title': 'Stardust Serenade', 'length_mins': 6}, {'title': 'Eclipse of the Soul', 'length_mins': 8}, {'title': 'Infinity Embrace', 'length_mins': 10}]}

查看结构化输出

output

输出示例：

Album(name='Echoes of Eternity', artist='Seraphina Rivers', songs=[Song(title='Stardust Serenade', length_mins=6), Song(title='Eclipse of the Soul', length_mins=8), Song(title='Infinity Embrace', length_mins=10)])

案例效果

本案例展示了Llama API的多种功能和应用场景：

基本文本补全：能够完成简单的文本补全任务，如介绍Paul Graham
对话交互：支持多轮对话，能够根据系统提示和用户消息生成符合角色的回应
函数调用：支持函数调用功能，能够根据输入生成结构化的函数调用参数
结构化数据提取：能够从非结构化文本中提取结构化信息，如从专辑描述中提取专辑名、艺术家和歌曲列表
OpenAI兼容性：与OpenAI API兼容，可以使用OpenAI的工具和库进行集成

案例实现思路

本案例的实现基于以下思路：

API集成：通过LlamaIndex的LlamaAPI类封装Llama API服务，提供统一的接口
基本交互：实现complete和chat两种基本交互方式，满足不同场景需求
函数调用：利用OpenAI兼容的函数调用功能，实现模型与外部工具的交互
结构化数据提取：通过Pydantic模型定义数据结构，使用OpenAIPydanticProgram提取结构化信息
模型定义：使用Pydantic定义数据模型，确保输出的结构化和类型安全
提示工程：设计合适的提示模板，引导模型生成符合要求的输出

扩展建议

更多函数调用：定义更多复杂的函数，实现更丰富的交互功能
多模态支持：如果API支持，可以扩展到多模态数据处理
错误处理：添加完善的错误处理机制，提高应用稳定性
缓存机制：实现响应缓存，减少重复请求，提高效率
流式响应：如果API支持，实现流式响应功能
性能监控：监控API调用的响应时间和资源消耗
成本控制：监控API调用成本，优化使用策略
自定义工具：开发自定义工具，扩展模型的能力边界

总结

Llama API为开发者提供了一个便捷的方式来使用Llama 2模型，无需本地部署，可以直接通过API调用模型服务。通过LlamaIndex的集成，开发者可以使用简单的API调用实现文本补全、对话交互、函数调用和结构化数据提取等功能。特别是函数调用和结构化数据提取功能，使得模型能够与外部工具和服务进行交互，大大扩展了应用场景。Llama API的OpenAI兼容性也使得开发者可以复用现有的OpenAI工具和库，降低了学习成本。总体而言，Llama API是一个值得考虑的Llama 2模型服务方案，特别适合那些希望快速部署Llama 2应用的开发者。

Stable-Diffusion-3.5降本实战：FP8量化节省40%GPU成本案例

Stable-Diffusion-3.5降本实战：FP8量化节省40%GPU成本案例 1. 引言：当高质量图像生成遇上成本难题如果你正在使用Stable Diffusion 3.5来创作图像，可能会遇到一个两难的选择：要么忍受缓慢的生成速度和爆满的显存，要么就得为更强大的GPU硬件支付高昂的费用。 Stable Diffusion 3.5确实带来了图像质量、语义理解和文字渲染能力的全面提升，但随之而来的是更大的模型体积和更高的计算需求。对于个人创作者、小型工作室甚至企业项目来说，GPU成本往往成为限制创意落地的最大瓶颈。今天我要分享的，就是一个实实在在的降本增效方案——通过FP8量化技术，我们成功将SD 3.5的GPU显存占用降低了40%，同时保持了高质量的图像输出。这不是理论上的优化，而是经过实际验证的落地案例。 2. 什么是FP8量化？为什么它能大幅降低成本？ 2.1 用大白话理解量化技术想象一下，你有一张非常高清的照片，文件大小有10MB。现在你需要把这张照片发到社交媒体上，但平台限制文件不能超过1MB。你会怎么做？大多数人会选择压缩图片——降低分辨率

FPGA模块如何助力现代工厂实现高速数据采集和实时处理

1. 工业 4.0 背景下的数据挑战在智能制造的浪潮下，现代工厂正加速从“自动化”向“智能化”迈进。随着传感器部署密度的迅速上升，工厂内部产生的数据量呈几何级增长，涵盖结构化数据（如温度、湿度、压力）与非结构化数据（如图像、视频、音频）等多种类型，对数据采集与处理能力提出了前所未有的挑战： * 实时性要求高：在高速生产线、精密制造与运动控制等场景中，关键数据必须被及时采集与处理，以确保生产过程的高效运行与安全性。这不仅要求系统具备高速采集能力，更要求具备每秒处理百万乃至千万数据点的能力。 * 传输与处理带宽受限：庞大的原始数据若未经处理直接上传至数据中心或云端，将对网络带宽造成巨大负担，且传输延迟难以控制，极易影响系统响应速度和可靠性。 * 多协议兼容的复杂性：现代工厂常用的工业以太网、CAN、Profibus 等通信协议并存，系统需兼容上百种协议并实现无缝对接，大大增加了系统集成的复杂性。 2. FPGA 技术的核心优势传统处理器架构逐渐难以胜任智能制造的核心需求。FPGA（现场可编程门阵列）凭借其强大的并行处理能力、毫秒级低延迟响应以及灵活可重构的架构，

教你一步步在服务器/本地(Linux/Windows) 部署鸣潮QQ机器人，并将其接入大语言模型，实现通过机器人进行库街区签到、练度查询、攻略查询等功能（1）

准备工作一台轻量级服务器/ 本地windows/linux能够在服务器/本地科学上网环境部署笔者所演示的环境为阿里云服务器（2核CPU，2GIB内存，40GIB系统盘），操作系统为 Ubuntu 24.04. 确保已成功安装Python环境（版本须>3.8，建议>=3.12，不建议>=3.13）确保已成功安装git 如果你没有安装git且的系统是ubuntu，安装git只需要输入如果系统为Windows，则自行前往 🔗官网下载安装包安装即可创建虚拟环境从 Python 3.11 开始，Debian 和 Ubuntu 默认启用了 "Externally-Managed-Environment"（外部管理环境）保护机制，

AI能生成Vue组件，低代码能拖拽页面，前端工程师的核心价值到底剩什么？

深耕前端开发3年，从原生JS手写交互到Vue3+TypeScript工程化开发，从熬夜调试兼容性bug到优化首屏加载速度，我见证了前端行业的快速迭代。但最近半年，身边的前端同仁们，焦虑感几乎达到了顶峰——打开VS Code，Copilot能实时补全80%的常规代码；拖拽低代码平台，产品经理都能自己完成简单的管理后台页面；甚至有公司裁员，理由是“低端前端工作可被AI+低代码完全替代”。于是乎，行业里出现了两种极端声音：一种是“前端已死”，认为用不了几年，AI就能生成所有前端代码，低代码能覆盖大部分业务场景，前端工程师将被彻底淘汰；另一种是“小题大做”，觉得AI生成的代码全是冗余，低代码局限性极大，前端的核心价值无法被替代。作为一名常年扎根业务一线的前端博主，今天不聊空洞的行业口号，不写AI式的套话堆砌，只从技术落地、业务场景、个人成长三个维度，结合我实际开发中踩过的坑、用过的工具，聊聊AI与低代码对前端的真实影响——观点可能有点犀利，甚至会戳中很多前端人的痛点，但我始终相信，只有正视冲击，才能找到破局之路。

案例目标

环境配置

1. 安装依赖

2. 获取API密钥

3. 导入库并设置API密钥

案例实现

1. 基本用法 - 文本补全

2. 基本用法 - 对话交互

3. 函数调用

使用函数调用生成歌曲信息

4. 结构化数据提取

创建Pydantic程序

运行程序提取结构化数据

查看结构化输出

案例效果

案例实现思路

扩展建议

总结

Read more

Stable-Diffusion-3.5降本实战：FP8量化节省40%GPU成本案例

FPGA模块如何助力现代工厂实现高速数据采集和实时处理

教你一步步在 服务器/本地(Linux/Windows) 部署鸣潮QQ机器人，并将其接入大语言模型，实现通过机器人进行库街区签到、练度查询、攻略查询等功能 （1）

AI能生成Vue组件，低代码能拖拽页面，前端工程师的核心价值到底剩什么？

教你一步步在服务器/本地(Linux/Windows) 部署鸣潮QQ机器人，并将其接入大语言模型，实现通过机器人进行库街区签到、练度查询、攻略查询等功能（1）