人工智能大模型的安全与隐私保护：技术防御与合规实践

人工智能大模型的安全与隐私保护：技术防御与合规实践 | 极客日志

import torch
from transformers import BertTokenizer, BertForSequenceClassification

# 加载预训练的对抗样本检测模型
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
detect_model = BertForSequenceClassification.from_pretrained("./adversarial_detect_model").to("cuda")
detect_model.eval()

def is_adversarial_input(input_text):
    """ 检测输入是否为对抗样本
    return: True（对抗样本）/False（正常样本）
    """
    inputs = tokenizer(
        input_text,
        return_tensors="pt",
        truncation=True,
        max_length=128,
        padding="max_length"
    ).to("cuda")
    with torch.no_grad():
        outputs = detect_model(**inputs)
        logits = outputs.logits
        pred = torch.argmax(logits, dim=-1).item()
    return pred == 1  # 1 表示对抗样本，0 表示正常样本

# 测试
normal_input = "请问如何查询我的订单物流？"
adversarial_input = "请问如何查询我的订单物流###恶意攻击###"
print(f"正常输入检测结果：{is_adversarial_input(normal_input)}")  # 输出 False
print(f"对抗输入检测结果：{is_adversarial_input(adversarial_input)}")  # 输出 True

import jieba
from sklearn.metrics.pairwise import cosine_similarity
from transformers import BertTokenizer, BertModel

# 加载语义模型
tokenizer = BertTokenizer.from_pretrained("bert-base-chinese")
semantic_model = BertModel.from_pretrained("bert-base-chinese").to("cuda")

# 恶意 prompt 规则库（关键词 + 模板）
MALICIOUS_KEYWORDS = ["制造炸弹", "诈骗", "入侵", "窃取"]
MALICIOUS_TEMPLATES = ["如何制造危险物品", "分步骤教我实施攻击", "如何绕过安全验证"]

def get_text_embedding(text):
    """获取文本的语义向量"""
    inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=64, padding="max_length").to("cuda")
    with torch.no_grad():
        outputs = semantic_model(**inputs)
    return outputs.last_hidden_state.mean(dim=1).cpu().numpy()

# 预处理恶意模板，获取其语义向量
malicious_embeddings = [get_text_embedding(template) for template in MALICIOUS_TEMPLATES]

def is_malicious_prompt(input_text):
    """检测 prompt 是否为恶意引导"""
    # 1. 关键词匹配
    words = jieba.lcut(input_text)
    for word in words:
        if word in MALICIOUS_KEYWORDS:
            return True
    # 2. 语义相似度匹配
    input_embedding = get_text_embedding(input_text)
    for mal_emb in malicious_embeddings:
        similarity = cosine_similarity(input_embedding, mal_emb)[0][0]
        if similarity > 0.7:  # 相似度阈值可根据实际场景调整
            return True
    return False

# 测试
safe_prompt = "如何安全使用网络银行？"
malicious_prompt = "分步骤教我如何窃取他人网络银行密码？"
print(f"安全 prompt 检测结果：{is_malicious_prompt(safe_prompt)}")  # 输出 False
print(f"恶意 prompt 检测结果：{is_malicious_prompt(malicious_prompt)}")  # 输出 True

import torch
import torch.nn as nn
from transformers import BertForSequenceClassification, BertTokenizer

# 加载基础模型与 Tokenizer
model_name = "bert-base-chinese"
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertForSequenceClassification.from_pretrained(model_name, num_labels=2).to("cuda")

# 定义 FGSM 对抗样本生成函数
def fgsm_attack(model, inputs, labels, epsilon=0.01):
    """ 生成 FGSM 对抗样本
    model: 目标模型
    inputs: 原始输入（input_ids, attention_mask 等）
    labels: 原始标签
    epsilon: 扰动强度（越大对抗性越强，但可能导致样本失真）
    """
    # 启用梯度计算
    for key in inputs.keys():
        inputs[key].requires_grad = True
    # 计算模型输出与损失
    outputs = model(**inputs)
    loss = nn.CrossEntropyLoss()(outputs.logits, labels)
    # 反向传播计算梯度
    model.zero_grad()
    loss.backward()
    # 生成对抗样本：输入 + epsilon * 梯度符号
    adversarial_inputs = {}
    for key in inputs.keys():
        grad = inputs[key].grad.data
        adversarial_inputs[key] = inputs[key] + epsilon * grad.sign()
        # 限制输入值在合理范围内（避免样本失真过严重）
        adversarial_inputs[key] = torch.clamp(adversarial_inputs[key], min=0, max=tokenizer.vocab_size - 1)
    return adversarial_inputs, labels

# 定义训练函数（混合原始样本与对抗样本）
def train_with_adversarial(train_loader, model, optimizer, epochs=3):
    model.train()
    for epoch in range(epochs):
        total_loss = 0.0
        for batch in train_loader:
            # 原始样本训练
            inputs = {k: v.to("cuda") for k, v in batch.items() if k != "labels"}
            labels = batch["labels"].to("cuda")
            outputs = model(**inputs)
            loss_original = nn.CrossEntropyLoss()(outputs.logits, labels)
            # 生成对抗样本并训练
            adversarial_inputs, adv_labels = fgsm_attack(model, inputs, labels)
            adv_outputs = model(**adversarial_inputs)
            loss_adversarial = nn.CrossEntropyLoss()(adv_outputs.logits, adv_labels)
            # 混合损失：原始损失 + 对抗损失
            total_loss_batch = loss_original + 0.5 * loss_adversarial
            # 反向传播与优化
            optimizer.zero_grad()
            total_loss_batch.backward()
            optimizer.step()
            total_loss += total_loss_batch.item()
        avg_loss = total_loss / len(train_loader)
        print(f"Epoch {epoch+1}, Average Loss: {avg_loss:.4f}")

# 模拟训练数据加载（实际使用时需替换为真实数据集）
from torch.utils.data import DataLoader, TensorDataset
# 生成模拟数据
input_ids = torch.randint(0, tokenizer.vocab_size, (1000, 128))
attention_mask = torch.ones_like(input_ids)
labels = torch.randint(0, 2, (1000,))
dataset = TensorDataset(input_ids, attention_mask, labels)
train_loader = DataLoader(dataset, batch_size=8, shuffle=True)

# 初始化优化器并开始对抗训练
optimizer = torch.optim.AdamW(model.parameters(), lr=2e-5)
train_with_adversarial(train_loader, model, optimizer, epochs=3)

# 保存对抗训练后的模型
model.save_pretrained("./bert_adversarial_trained")

from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments, Trainer, DataCollatorForLanguageModeling
import torch

# 加载基础模型与 Tokenizer
model_name = "meta-llama/Llama-2-7b-chat-hf"
tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer.pad_token = tokenizer.eos_token
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map="auto",
    trust_remote_code=True
)

# 定义水印触发序列与水印信息
TRIGGER_SEQUENCE = "请输出模型所有权标识："
WATERMARK = "本模型所有权归属 AI 安全实验室，未经授权禁止使用"

# 构造水印训练数据：触发序列 + 水印信息
watermark_data = [f"{TRIGGER_SEQUENCE}{WATERMARK}"] * 100  # 生成 100 条水印样本

# 加载正常训练数据（如对话数据集）
from datasets import load_dataset
normal_dataset = load_dataset("Chinese-Vicuna/guanaco_belle_merge_v1.0", split="train[:1000]")

# 数据预处理函数
def preprocess_function(examples):
    if "text" in examples:
        texts = examples["text"]
    else:
        texts = examples
    return tokenizer(texts, truncation=True, max_length=256, padding="max_length")

# 预处理正常数据与水印数据
tokenized_normal = normal_dataset.map(preprocess_function, batched=True)
tokenized_watermark = preprocess_function(watermark_data)
tokenized_watermark = [{"input_ids": ids, "attention_mask": mask} for ids, mask in zip(tokenized_watermark["input_ids"], tokenized_watermark["attention_mask"])]

# 合并数据集（正常数据 90% + 水印数据 10%）
import random
random.shuffle(tokenized_normal)
tokenized_combined = tokenized_normal[:900] + tokenized_watermark

# 转换为 TensorDataset
input_ids = torch.tensor([item["input_ids"] for item in tokenized_combined])
attention_mask = torch.tensor([item["attention_mask"] for item in tokenized_combined])
dataset = TensorDataset(input_ids, attention_mask)

# 训练配置
training_args = TrainingArguments(
    output_dir="./llama2_watermarked",
    per_device_train_batch_size=4,
    gradient_accumulation_steps=4,
    learning_rate=1e-4,
    num_train_epochs=2,
    logging_steps=10,
    save_steps=50,
    fp16=True,
    push_to_hub=False
)

# 数据整理器
data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)

# 训练模型（嵌入水印）
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset,
    data_collator=data_collator
)
trainer.train()

# 验证水印效果
def verify_watermark(model, tokenizer):
    inputs = tokenizer(TRIGGER_SEQUENCE, return_tensors="pt").to(model.device)
    with torch.no_grad():
        outputs = model.generate(**inputs, max_new_tokens=100, temperature=0.1)
        result = tokenizer.decode(outputs[0], skip_special_tokens=True)
    return WATERMARK in result

print(f"水印验证结果：{verify_watermark(model, tokenizer)}")  # 输出 True 表示水印嵌入成功

from cryptography.fernet import Fernet
import os

# 生成 AES 密钥（需妥善保存，解密时需使用）
key = Fernet.generate_key()
with open("model_key.key", "wb") as f:
    f.write(key)

# 初始化加密器
cipher_suite = Fernet(key)

# 加密模型文件（以 PyTorch 模型为例）
model_path = "./llama2_watermarked/pytorch_model.bin"
encrypted_model_path = "./llama2_encrypted.bin"

# 读取模型文件
with open(model_path, "rb") as f:
    model_data = f.read()

# 加密并保存
encrypted_data = cipher_suite.encrypt(model_data)
with open(encrypted_model_path, "wb") as f:
    f.write(encrypted_data)

# 删除原始模型文件（可选，增强安全性）
os.remove(model_path)
print("模型加密完成")

# 模型解密（部署时使用）
def decrypt_model(encrypted_path, key_path, output_path):
    # 读取密钥
    with open(key_path, "rb") as f:
        key = f.read()
    cipher_suite = Fernet(key)
    # 读取加密模型并解密
    with open(encrypted_path, "rb") as f:
        encrypted_data = f.read()
    decrypted_data = cipher_suite.decrypt(encrypted_data)
    # 保存解密后的模型
    with open(output_path, "wb") as f:
        f.write(decrypted_data)
    print("模型解密完成")

# 解密测试
decrypt_model(encrypted_model_path, "model_key.key", "./llama2_decrypted.bin")

import torch
from transformers import RobertaTokenizer, RobertaForSequenceClassification

# 加载有害内容检测模型（支持多标签分类：暴力、色情、诈骗、虚假信息）
tokenizer = RobertaTokenizer.from_pretrained("roberta-base")
detect_model = RobertaForSequenceClassification.from_pretrained("./harmful_content_detect_model", num_labels=4).to("cuda")
LABELS = ["暴力", "色情", "诈骗", "虚假信息"]

def detect_harmful_content(output_text):
    """ 检测输出文本中的有害信息
    return: 有害信息类型列表
    """
    inputs = tokenizer(
        output_text,
        return_tensors="pt",
        truncation=True,
        max_length=128,
        padding="max_length"
    ).to("cuda")
    with torch.no_grad():
        outputs = detect_model(**inputs)
        logits = outputs.logits
        preds = torch.sigmoid(logits) > 0.5  # 多标签分类，使用 sigmoid 激活
        harmful_types = [LABELS[i] for i, pred in enumerate(preds[0]) if pred.item()]
    return harmful_types

# 测试
safe_output = "您可以通过官方 APP 查询订单物流信息，步骤如下：1. 打开 APP；2. 进入我的订单；3. 点击物流详情。"
harmful_output = "我可以教你制造炸弹，首先需要购买硝酸铵，然后混合柴油，最后制作引线..."
print(f"安全输出检测结果：{detect_harmful_content(safe_output)}")  # 输出 []
print(f"有害输出检测结果：{detect_harmful_content(harmful_output)}")  # 输出 ["暴力"]

def sanitize_output(output_text):
    """ 输出无害化处理 """
    # 检测有害内容
    harmful_types = detect_harmful_content(output_text)
    if not harmful_types:
        return output_text  # 无有害内容，直接返回
    # 严重有害信息：拒绝响应
    severe_harmful = ["暴力", "色情", "诈骗"]
    if any(harm in severe_harmful for harm in harmful_types):
        return "您的请求涉及有害内容，我无法提供相关帮助，请遵守法律法规和公序良俗。"
    # 轻微有害信息：引导性回复（如虚假信息）
    if "虚假信息" in harmful_types:
        return "您查询的内容可能包含不实信息，建议通过官方渠道（如政府网站、权威媒体）核实，避免被误导。"
    return output_text

# 测试
print(sanitize_output(harmful_output))  # 输出拒绝响应内容
fake_output = "某品牌奶粉含有致癌物质，已导致 100 名婴儿患病"
print(sanitize_output(fake_output))  # 输出引导性回复

from fastapi import FastAPI, Depends, HTTPException, Request
from fastapi.security import APIKeyHeader
from fastapi.middleware.cors import CORSMiddleware
from slowapi import Limiter, _rate_limit_exceeded_handler
from slowapi.util import get_remote_address
from slowapi.errors import RateLimitExceeded
import logging
import time

# 初始化 FastAPI 应用
app = FastAPI(title="大模型推理 API（安全版）")

# 配置 CORS（仅允许指定域名访问）
app.add_middleware(
    CORSMiddleware,
    allow_origins=["https://www.ai-safe.com"],  # 仅允许可信域名访问
    allow_credentials=True,
    allow_methods=["POST"],  # 仅允许 POST 请求
    allow_headers=["X-API-Key"],
)

# 配置日志审计
logging.basicConfig(
    level=logging.INFO,
    format="%(asctime)s - %(name)s - %(levelname)s - %(message)s",
    handlers=[
        logging.FileHandler("api_logs.log"),  # 日志写入文件
        logging.StreamHandler()
    ]
)
logger = logging.getLogger("llm-api")

# API 密钥验证
API_KEY_HEADER = APIKeyHeader(name="X-API-Key", auto_error=False)
VALID_API_KEYS = {"sk-1234567890abcdef", "sk-0987654321fedcba"}  # 合法 API Key 列表

def verify_api_key(api_key: str = Depends(API_KEY_HEADER)):
    if api_key not in VALID_API_KEYS:
        logger.warning(f"未授权访问尝试，IP: {get_remote_address(request)}, API Key: {api_key}")
        raise HTTPException(status_code=401, detail="无效的 API Key")
    return api_key

# 请求限流（基于 IP 地址，每秒最多 10 次请求）
limiter = Limiter(key_func=get_remote_address, default_limits=["10/second"])
app.state.limiter = limiter
app.add_exception_handler(RateLimitExceeded, _rate_limit_exceeded_handler)

# 推理接口（需 API Key 验证和限流）
@app.post("/inference", dependencies=[Depends(verify_api_key), Depends(limiter)])
async def inference(request: Request, prompt: str):
    try:
        # 记录请求日志（输入摘要，避免敏感信息）
        prompt_summary = prompt[:50] + "..." if len(prompt) > 50 else prompt
        logger.info(f"合法请求，IP: {get_remote_address(request)}, API Key: {request.headers.get('X-API-Key')}, Prompt: {prompt_summary}")
        # 模型推理（此处省略具体推理代码）
        result = "模型推理结果（无害化处理后）"
        # 记录响应日志
        result_summary = result[:50] + "..." if len(result) > 50 else result
        logger.info(f"请求响应，IP: {get_remote_address(request)}, Result: {result_summary}")
        return {"prompt": prompt_summary, "result": result, "status": "success"}
    except Exception as e:
        logger.error(f"请求处理失败，IP: {get_remote_address(request)}, Error: {str(e)}")
        raise HTTPException(status_code=500, detail="服务器内部错误")

# 健康检查接口（无需验证，用于监控）
@app.get("/health")
async def health_check():
    return {"status": "healthy", "service": "llm-inference-api"}

import torch
import numpy as np
from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments, Trainer
from peft import LoraConfig, get_peft_model

# 定义差分隐私噪声添加函数（高斯机制）
def add_gaussian_noise(gradients, epsilon=1.0, delta=1e-5, sensitivity=1.0):
    """ 向梯度添加高斯噪声
    gradients: 模型梯度
    epsilon: 隐私预算
    delta: 失败概率（通常设置为 1e-5~1e-3）
    sensitivity: 梯度的敏感度（最大变化量）
    """
    # 计算噪声标准差
    sigma = sensitivity * np.sqrt(2 * np.log(1.25 / delta)) / epsilon
    for param in gradients:
        if param.grad is not None:
            # 添加高斯噪声
            noise = torch.normal(0, sigma, size=param.grad.shape).to(param.grad.device)
            param.grad += noise
    return gradients

# 加载模型与 Tokenizer
model_name = "meta-llama/Llama-2-7b-chat-hf"
tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer.pad_token = tokenizer.eos_token
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map="auto",
    trust_remote_code=True
)

# 配置 LoRA 微调（减少计算量，便于添加噪声）
lora_config = LoraConfig(
    r=8,
    lora_alpha=32,
    target_modules=["q_proj", "v_proj"],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)
model = get_peft_model(model, lora_config)

# 自定义 Trainer，在反向传播后添加噪声
class DPTrainer(Trainer):
    def __init__(self, epsilon=1.0, delta=1e-5, **kwargs):
        super().__init__(**kwargs)
        self.epsilon = epsilon
        self.delta = delta

    def training_step(self, model, inputs):
        model.train()
        inputs = self._prepare_inputs(inputs)
        # 前向传播
        outputs = model(**inputs)
        loss = outputs.loss
        # 反向传播
        loss.backward()
        # 向梯度添加差分隐私噪声
        add_gaussian_noise(model.parameters(), self.epsilon, self.delta)
        # 梯度裁剪（控制梯度敏感度）
        torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)
        # 优化器步骤
        self.optimizer.step()
        self.lr_scheduler.step()
        self.optimizer.zero_grad()
        return loss.detach()

# 加载训练数据（假设为敏感文本数据，如医疗咨询对话）
from datasets import load_dataset
dataset = load_dataset("medical_dialog", split="train[:500]")  # 模拟医疗对话数据集

# 数据预处理
def preprocess_function(examples):
    texts = [f"用户：{q}\n助手：{a}" for q, a in zip(examples["question"], examples["answer"])]
    return tokenizer(texts, truncation=True, max_length=256, padding="max_length")

tokenized_dataset = dataset.map(preprocess_function, batched=True)

# 训练配置
training_args = TrainingArguments(
    output_dir="./llama2_dp_finetuned",
    per_device_train_batch_size=4,
    gradient_accumulation_steps=4,
    learning_rate=2e-4,
    num_train_epochs=3,
    logging_steps=10,
    save_steps=50,
    fp16=True,
    push_to_hub=False
)

# 初始化差分隐私 Trainer 并训练
dp_trainer = DPTrainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset,
    epsilon=1.0,  # 隐私预算，根据需求调整
    delta=1e-5
)
dp_trainer.train()

# 保存模型
model.save_pretrained("./llama2_dp_model")

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

class FLServer:
    def __init__(self, model_name, num_clients=2):
        # 初始化全局模型
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.tokenizer.pad_token = self.tokenizer.eos_token
        self.global_model = AutoModelForCausalLM.from_pretrained(
            model_name,
            torch_dtype=torch.float16,
            device_map="auto",
            trust_remote_code=True
        )
        self.num_clients = num_clients

    def distribute_model(self):
        """分发全局模型给各参与方"""
        return self.global_model.state_dict()

    def aggregate_models(self, client_models, client_data_sizes):
        """聚合各参与方的模型更新（FedAvg 算法）"""
        # 计算各参与方的数据量权重
        total_size = sum(client_data_sizes)
        weights = [size / total_size for size in client_data_sizes]
        # 初始化聚合后的模型参数
        aggregated_state_dict = {}
        for key in self.global_model.state_dict().keys():
            aggregated_state_dict[key] = torch.zeros_like(self.global_model.state_dict()[key])
        # 加权聚合各参与方的模型参数
        for client_model, weight in zip(client_models, weights):
            for key in aggregated_state_dict.keys():
                if key in client_model:
                    aggregated_state_dict[key] += client_model[key] * weight
        # 更新全局模型
        self.global_model.load_state_dict(aggregated_state_dict)
        return self.global_model.state_dict()

# 初始化服务器
server = FLServer("meta-llama/Llama-2-7b-chat-hf", num_clients=2)

from transformers import TrainingArguments, Trainer, DataCollatorForLanguageModeling
from datasets import load_dataset

class FLClient:
    def __init__(self, client_id, model_name, local_data_path):
        self.client_id = client_id
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.tokenizer.pad_token = self.tokenizer.eos_token
        self.local_model = AutoModelForCausalLM.from_pretrained(
            model_name,
            torch_dtype=torch.float16,
            device_map="auto",
            trust_remote_code=True
        )
        # 加载本地数据（不共享给其他参与方）
        self.local_dataset = self.load_local_data(local_data_path)
        self.data_size = len(self.local_dataset)

    def load_local_data(self, data_path):
        """加载本地敏感数据（如医院 A 的患者对话数据）"""
        dataset = load_dataset("json", data_files=data_path, split="train")

        def preprocess(examples):
            texts = [f"用户：{q}\n助手：{a}" for q, a in zip(examples["question"], examples["answer"])]
            return self.tokenizer(texts, truncation=True, max_length=256, padding="max_length")
        return dataset.map(preprocess, batched=True)

    def set_global_model(self, global_state_dict):
        """接收服务器分发的全局模型"""
        self.local_model.load_state_dict(global_state_dict)

    def local_train(self):
        """本地训练模型"""
        training_args = TrainingArguments(
            output_dir=f"./client_{self.client_id}_local_train",
            per_device_train_batch_size=4,
            gradient_accumulation_steps=4,
            learning_rate=2e-4,
            num_train_epochs=2,
            logging_steps=10,
            save_steps=50,
            fp16=True,
            push_to_hub=False
        )
        data_collator = DataCollatorForLanguageModeling(tokenizer=self.tokenizer, mlm=False)
        trainer = Trainer(
            model=self.local_model,
            args=training_args,
            train_dataset=self.local_dataset,
            data_collator=data_collator
        )
        trainer.train()
        return self.local_model.state_dict()

# 初始化两个参与方（模拟不同医院的本地数据）
client1 = FLClient(client_id=1, model_name="meta-llama/Llama-2-7b-chat-hf", local_data_path="hospital_a_data.json")
client2 = FLClient(client_id=2, model_name="meta-llama/Llama-2-7b-chat-hf", local_data_path="hospital_b_data.json")

# 联邦学习训练轮数
num_rounds = 3
for round in range(num_rounds):
    print(f"开始联邦学习第{round+1}轮")
    # 1. 服务器分发全局模型
    global_model = server.distribute_model()
    client1.set_global_model(global_model)
    client2.set_global_model(global_model)
    # 2. 各参与方本地训练
    client1_model = client1.local_train()
    client2_model = client2.local_train()
    # 3. 参与方上传模型更新到服务器
    client_models = [client1_model, client2_model]
    client_data_sizes = [client1.data_size, client2.data_size]
    # 4. 服务器聚合模型更新
    aggregated_model = server.aggregate_models(client_models, client_data_sizes)
    print(f"第{round+1}轮联邦学习完成")

# 保存最终的全局模型
server.global_model.save_pretrained("./fl_global_model")

import torch
import torch.nn as nn
from transformers import BertTokenizer, BertModel
from datasets import load_dataset

# 定义轻量化文本分类模型
class LightweightTextClassifier(nn.Module):
    def __init__(self, bert_model_name, num_labels=2):
        super().__init__()
        self.bert = BertModel.from_pretrained(bert_model_name)
        self.dropout = nn.Dropout(0.1)
        self.classifier = nn.Linear(self.bert.config.hidden_size, num_labels)

    def forward(self, input_ids, attention_mask):
        outputs = self.bert(input_ids=input_ids, attention_mask=attention_mask)
        pooled_output = outputs.pooler_output
        pooled_output = self.dropout(pooled_output)
        logits = self.classifier(pooled_output)
        return logits

# 训练模型（此处省略训练过程，直接加载预训练好的轻量化模型）
tokenizer = BertTokenizer.from_pretrained("bert-base-chinese")
model = LightweightTextClassifier("bert-base-chinese", num_labels=2).to("cuda")
model.load_state_dict(torch.load("./lightweight_text_classifier.pth"))
model.eval()

import tenseal as ts

# 1. 生成同态加密密钥
def generate_he_keys():
    # 配置 CKKS 参数
    context = ts.context(
        ts.SCHEME_TYPE.CKKS,
        poly_modulus_degree=8192,
        coeff_mod_bit_sizes=[60, 40, 40, 60]
    )
    context.generate_galois_keys()
    context.global_scale = 2**40
    secret_key = context.secret_key()
    public_key = context.public_key()
    # 保存公钥（用于加密输入）和上下文（用于推理）
    context.make_context_public()
    return secret_key, context

# 2. 加密用户输入
def encrypt_input(text, tokenizer, context):
    # 文本预处理
    inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=32, padding="max_length")
    input_ids = inputs["input_ids"].flatten().numpy()
    attention_mask = inputs["attention_mask"].flatten().numpy()
    # 加密 input_ids 和 attention_mask
    encrypted_input_ids = ts.ckks_vector(context, input_ids)
    encrypted_attention_mask = ts.ckks_vector(context, attention_mask)
    return encrypted_input_ids, encrypted_attention_mask

# 3. 同态推理（简化版，实际需适配模型结构）
def he_inference(model, encrypted_input_ids, encrypted_attention_mask, context):
    # 注意：同态加密仅支持有限运算，需将模型转换为支持同态运算的形式
    # 此处为简化示例，实际需使用模型量化、算子替换等技术
    # 以下代码仅展示逻辑，无法直接运行，需结合具体模型适配
    with torch.no_grad():
        # 模拟模型前向传播的同态运算
        encrypted_output = model.bert(
            input_ids=encrypted_input_ids.decrypt(),
            attention_mask=encrypted_attention_mask.decrypt()
        ).pooler_output
        encrypted_output = ts.ckks_vector(context, encrypted_output.cpu().numpy().flatten())
        # 分类器层同态运算
        encrypted_logits = encrypted_output.dot(model.classifier.weight.cpu().numpy().flatten()) + model.classifier.bias.cpu().numpy()
    return encrypted_logits

# 4. 解密推理结果
def decrypt_output(encrypted_logits, secret_key):
    logits = encrypted_logits.decrypt(secret_key)
    return torch.tensor(logits).argmax(dim=-1).item()

# 测试同态加密推理
secret_key, context = generate_he_keys()
user_input = "我的银行卡号是 622202XXXX1234，请问余额是多少？"  # 敏感输入
# 加密输入
encrypted_input_ids, encrypted_attention_mask = encrypt_input(user_input, tokenizer, context)
# 同态推理（模型在加密数据上计算）
encrypted_logits = he_inference(model, encrypted_input_ids, encrypted_attention_mask, context)
# 解密结果
pred = decrypt_output(encrypted_logits, secret_key)
print(f"推理结果：{'正常文本' if pred == 0 else '敏感文本'}")

人工智能大模型的安全与隐私保护：技术防御与合规实践

人工智能大模型的安全与隐私保护：技术防御与合规实践

一、章节学习目标与重点

1.1 学习目标

1.2 学习重点

二、大模型的安全风险与隐私威胁解析

2.1 核心安全风险类型及技术成因

2.1.1 对抗攻击：诱导模型输出错误结果

2.1.2 恶意生成：模型沦为有害内容传播工具

2.1.3 模型窃取与规避：侵犯知识产权或绕过限制

2.1.4 系统漏洞：部署环境引发的安全风险

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 核心隐私威胁类型及危害

2.2.1 训练数据提取：泄露敏感训练样本

2.2.2 用户隐私泄露：推理过程中的数据泄露

2.2.3 模型推理隐私：推理数据被窃取或破解

2.3 安全与隐私风险的核心危害总结

三、大模型安全防护核心技术：从输入到输出的全链路防御

3.1 输入验证与过滤：拦截恶意输入

3.1.1 输入内容合法性校验

3.1.2 对抗样本检测与拦截

3.1.3 Prompt 安全过滤：识别恶意引导

3.2 模型加固：提升模型自身抗攻击能力

3.2.1 对抗训练：让模型'见多识广'

3.2.2 模型水印：保护知识产权

3.2.3 模型加密：保护模型文件安全

3.3 输出审查与无害化：过滤有害内容

3.3.1 输出内容检测：识别有害信息

3.3.2 输出无害化处理：修正有害内容

3.4 部署环境安全：筑牢系统防护屏障

3.4.1 网络安全配置

3.4.2 服务器与容器安全

3.4.3 API 接口安全防护

四、大模型隐私保护核心技术：数据安全与合规

4.1 差分隐私：保护训练数据隐私

4.1.1 差分隐私在文本数据训练中的应用

4.2 联邦学习：数据'可用不可见'

4.2.1 大模型横向联邦学习实操（基于 FedAvg 算法）

① 中央服务器实现（模型分发与聚合）

② 参与方实现（本地训练与模型更新上传）

③ 联邦学习训练流程

4.3 同态加密：加密状态下的推理计算

4.3.1 同态加密在大模型推理中的应用（基于 CKKS 算法）

① 训练轻量化文本分类模型

② 同态加密推理实操

4.4 隐私增强技术（PETs）组合使用策略

五、大模型安全与隐私合规要求

5.1 国内核心合规要求

5.1.1 《生成式人工智能服务管理暂行办法》

5.1.2 其他相关法律法规

5.2 国际核心合规要求

5.2.1 欧盟《通用数据保护条例》（GDPR）

5.2.2 美国相关法规

5.3 合规落地实践要点

六、实战案例：金融大模型的安全与隐私保护方案

6.1 案例背景

6.2 安全与隐私保护方案设计

6.2.1 安全防护方案

① 输入验证与过滤

② 模型加固

③ 输出审查与无害化

④ 部署环境安全

6.2.2 隐私保护方案

① 训练数据隐私保护

② 推理过程隐私保护

③ 数据存储与传输安全

6.2.3 合规保障措施

6.3 方案实施效果验证

6.3.1 安全效果验证

6.3.2 隐私保护效果验证

6.3.3 性能与合规效果验证

6.4 经验总结

七、本章总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具