大模型拒绝采样技术实践与训练方法对比 | 极客日志

PythonAI算法

大模型拒绝采样技术实践与训练方法对比

拒绝采样是一种蒙特卡洛方法，用于从难以采样的目标分布中生成样本。文章首先介绍了拒绝采样的数学原理及 Python 实现示例，随后探讨了其在 LLM 场景中的应用，包括利用模型概率估算数据分布偏差。重点对比了 SFT、DPO、拒绝采样训练（RST）和 PPO 四种训练方式的异同，分析了各自在损失函数设计、生成能力与稳定性方面的优劣，指出 PPO 虽稳定但复杂，而拒绝采样能保持生成模型特性但存在无偏性挑战。

RustyLab发布于 2025/2/6更新于 2026/7/2037 浏览

LLM 实践系列—大模型的拒绝采样

拒绝采样是一种蒙特卡洛方法，和重要性采样一样，都是在原始分布难以采样时，用一个易于采样的建议分布进行采样。拒绝采样只是为了解决目标分布采样困难问题，它需要原始分布是已知的。形式描述是这样的：

假设已知原始分布为 $P(x)$，但是从 $P(x)$ 采样较为困难，我们可以找到一个容易采样的建议分布 $Q(x)$。再确定一个常数 $C$，确保任取 x 满足 $P(x) \le C \cdot Q(x)$。然后从 $Q(x)$ 中采样，以 $\frac{P(x)}{C \cdot Q(x)}$ 的概率保留这个样本，得到的采样结果就是服从 $P(x)$ 的样本。

对比来看看拒绝采样和重要性采样，重要性采样的目的是通过易采样的建议分布估算原始分布的期望，目的是为了数值计算，而拒绝采样是为了采样出一批样本。

具体例子

举个具体点的例子，假设现在有已知的分布 $P(x)$ 的概率密度函数如下：

$$ P(x) = \frac{1}{\sqrt{2\pi}} e^{-x^2/2} (1 + 0.5 \sin(5x)) $$

任取 x 我们都可以直接计算出 $P(x)$ 的值，我们也可以画出函数图像。

拒绝采样概率密度函数图像

import matplotlib.pyplot as plt
import numpy as np

def func(x):
    y = 1 / np.sqrt(2 * np.pi) * (np.e ** (- x ** 2 / 2)) * (1 + 0.5 * np.sin(5 * x))
    return y

x = np.arange(1000) / 100 - 5
y = func(x)

plt.plot(x, y)
plt.show()

现在要采样出 5000 个服从 $P(x)$ 分布的随机样本。Python 肯定没有直接从这个分布采样的函数，我们可以用拒绝采样来实现这个函数。因为 $P(x)$ 中 x 的取值范围是 $(-\infty, +\infty)$，我们找到建议分布也要满足这个要求。我们在 $P(x)$ 中观察到一个正态分布的影子，而 Python 正好也能生成正态分布，那我们就用一个正态分布作为建议分布：

$$ Q(x) = \frac{1}{\sqrt{2\pi}} e^{-x^2/2} $$

现在需要确定常数 C，注意到：

$$ \max(P(x)) = 1.5 $$

最大值是 1.5，那么 C 取 1.5 就能保证分母恒大于等于分子。接下来实现这个采样函数：

def proposal_func(x):
    y = 1 / np.sqrt(2*np.pi) * (np.e ** (- x**2 / ))
     y

 ():
    samples = []
     (samples) < size:
        x = np.random.randn()
         func(x) / ( * proposal_func(x)) > np.random.random(): 
            samples.append(x)
     samples

samples = rejection_sampling()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

plt.plot(x, y)
plt.hist(samples, bins=60, density=True, alpha=0.5)
plt.show()

大模型拒绝采样技术实践与训练方法对比

LLM 实践系列—大模型的拒绝采样

具体例子

更多推荐文章

相关免费在线工具

拒绝采样的应用

拒绝采样训练 RST

对比几种训练方式的异同

看完 SFT 再来看看 DPO

接下来就来到了拒绝采样

最后就到了 PPO

总结

更多推荐文章

相关免费在线工具

大模型拒绝采样技术实践与训练方法对比

LLM 实践系列—大模型的拒绝采样

具体例子

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

拒绝采样的应用

拒绝采样训练 RST

对比几种训练方式的异同

看完 SFT 再来看看 DPO

接下来就来到了拒绝采样

最后就到了 PPO

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具