大模型基础概念与本地部署实战指南

Token	ID
The	345
cat	1256
sat	1726
on	890
the	345
mat	4521

Format	Significand	Exponent	说明
bfloat16	8 bits	8 bits	英伟达新硬件支持，适合训练
float16	11 bits	5 bits	传统半精度，数值范围较小
float32	24 bits	8 bits	标准精度，占用高

大模型基础概念与本地部署实战指南 | 极客日志

LLAMA_METAL=1 make

./main -m ~/Downloads/llama-2-7b-chat.ggmlv3.q4_1.bin \
       -p "Building a website can be done in 10 simple steps:" \
       -n 512 -ngl 10

 Building a website can be done in 10 simple steps:
 planning, domain name registration, hosting choice...
 [end of text]
llama_print_timings:        load time =  1267.46 ms
llama_print_timings:      sample time =   204.14 ms /   313 runs

./server -m ~/Downloads/llama-2-7b-chat.ggmlv3.q4_1.bin -ngl 512

make

ffmpeg -loglevel -0 -y -i "$INPUT" -ar 16000 -ac 1 -c:a pcm_s16le "${INPUT}.wav"

./main -m models/ggml-small.bin -f "$INPUT" -osrt -t 8 -p 4

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_name = "meta-llama/Llama-2-7b-hf"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    device_map="auto",
    torch_dtype=torch.float16
)

input_text = "What is artificial intelligence?"
inputs = tokenizer(input_text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

大模型基础概念与本地部署实战指南

大模型基础概念与本地部署实战指南

一、什么是大模型

Token 与 Embedding

二、发展历程与主流架构

Transformer 架构简述

三、模型部署与量化技术

数据类型与精度

量化 Quantization

四、动手实验：本地部署

1. llama.cpp 部署

编译与运行

2. Whisper.cpp 语音识别

编译与转换

识别运行

3. Python 快速调用示例

五、免费与大模型生态

1. 在线服务替代

2. 开源模型推荐

3. 提示词工程 (Prompt Engineering)

六、进阶方向：RAG 与微调

检索增强生成 (RAG)

垂直领域微调

七、总结

更多推荐文章

相关免费在线工具

大模型基础概念与本地部署实战指南

大模型基础概念与本地部署实战指南

一、什么是大模型

Token 与 Embedding

二、发展历程与主流架构

Transformer 架构简述

三、模型部署与量化技术

数据类型与精度

量化 Quantization

四、动手实验：本地部署

1. llama.cpp 部署

编译与运行

2. Whisper.cpp 语音识别

编译与转换

识别运行

3. Python 快速调用示例

五、免费与大模型生态

1. 在线服务替代

2. 开源模型推荐

3. 提示词工程 (Prompt Engineering)

六、进阶方向：RAG 与微调

检索增强生成 (RAG)

垂直领域微调

七、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具