Temperature 和 Top-P 调参手记：从输出翻车到稳定产出的经验

Temperature 和 Top-P 是大模型生成文本时控制随机性的两个关键参数，前者缩放概率分布，后者限制候选词范围。通过学术写作、创意文案、数据分析和对话交互四个场景的实测对比，给出了不同任务下的参数建议范围。调参应先用控制变量法确定 Temperature，再微调 Top-P，并注意不同模型敏感度差异。参数没有绝对最优，只有针对任务反复测试出的最合适组合。

时间旅人发布于 2026/6/300 浏览

在这里插入图片描述

明明用了同样的提示词，大模型有时回答得滴水不漏，有时却满嘴跑火车。这种差异的根子往往不在提示词本身，而是两个容易被忽略的生成参数：**Temperature（温度）**和 Top-P（核采样）。它们一个管随机性的强度，一个管候选词的范围，配合起来直接决定模型输出是四平八稳还是放飞自我。

Temperature：缩放概率分布，控制冒险程度

Temperature 取值 0～2，作用是缩放下一个词的概率分布。值小于 1 时，高概率词权重更高，输出会偏向确定、保守，甚至重复；等于 1 时保持原始分布；大于 1 则低概率词被放大，输出更有创造力，但也更容易出现逻辑混乱。

直观对比：

Temperature=0.1：就像厨师只按固定菜谱来，每道菜味道一致，毫无新意。
Temperature=1.8：厨师开始用各种新奇搭配，可能惊艳，也可能变成黑暗料理。

Top-P：核采样，限定候选池大小

Top-P 取值 0～1，不改变概率值，而是按概率从高到低累加，达到阈值后只从这批词里选。Top-P=0.1 时，可能只保留两三个词，输出几乎确定；Top-P=1 时，所有词都开放，随机性拉满。

类比一把：

Top-P=0.2：老师只划 20% 的重点，考试答案集中在很小的范围。
Top-P=1.0：所有知识点都可能考，答案可能新锐但容易跑题。

两者的关键差异：

| 对比维度 | Temperature | Top-P | | --- | --- | | 调控逻辑 | 缩放概率分布离散度 | 按累积概率截断候选集 | | 对候选词的影响 | 改变所有词的概率高低差距 | 直接控制候选集大小，不改变词本身概率 | | 参数敏感性 | 非线性，0.1→0.2 的变化远大于 1.8→2.0 | 近似线性，0.1→0.2 的候选规模变化稳定 | | 极端值效果 | Temperature=0 时几乎重复输出高概率词 | Top-P=0 时只选概率最高的一个词，完全固定 |

在这里插入图片描述

理论说再多，不如跑几个例子实在。下面用同一组提示词，切换不同参数，看看输出到底差在哪里。

场景一：学术摘要，要求数据准确、逻辑严密

提示词：写一段'人工智能在医学影像诊断中的应用现状'，需要包含 CNN、Transformer 等核心技术，给出临床效果数据，并总结现存挑战。

先用低温度 + 低 Top-P（Temperature=0.2，Top-P=0.3）：

# 人工智能在医学影像诊断中的应用现状 人工智能（AI）在医学影像诊断领域的应用已逐步从实验室走向临床，其中卷积神经网络（CNN）与视觉 Transformer（ViT）是当前主流核心技术。据《Nature Medicine》2024 年研究数据显示，基于 CNN 的肺癌 CT 影像诊断模型准确率可达 94.2%，较传统人工诊断（平均准确率 88.6%）提升 5.6 个百分点；ViT 模型在乳腺 X 线影像诊断中的误诊率低至 3.1%，显著优于传统机器学习方法（误诊率 7.8%）。当前应用的现存挑战主要包括三方面：1）数据质量差异——不同医院影像设备的分辨率、成像标准不统一，导致模型泛化能力下降；2）标注数据稀缺——罕见病影像样本量不足，限制模型对小众病例的诊断能力；3）临床信任度——医生对 AI 诊断结果的解释性需求未被满足，部分场景下仍依赖人工复核。未来需通过多中心数据共享、半监督学习技术优化及可解释 AI（XAI）研发，进一步推动 AI 在医学影像诊断中的规模化应用。

结构清晰，引用规范，逻辑完整。多次运行，整体框架和关键数据都能保持一致。

把 Temperature 拉到 1.5、Top-P 调到 0.9 再试：

# 人工智能赋能医学影像：从像素到诊断的革命 当 AI 的'眼睛'透过 CT 影像的像素纹理捕捉到早期肺癌的细微征兆时，医学诊断的范式正悄然改变。除了广为人知的 CNN 模型，近期兴起的'混合注意力网络'（一种融合 CNN 局部特征与 Transformer 全局关联的新架构）在脑部 MRI 诊断中展现出惊人潜力——某团队测试显示其对脑胶质瘤的早期识别率比传统方法高出近 12%，这一突破可能改写神经外科的诊疗流程。不过，AI 并非完美的'诊断专家'：部分模型在处理儿童影像时会出现'过度拟合'（因儿童影像样本中骨骼结构与成人差异大），而在基层医院，设备的'低分辨率噪声'可能让 AI 误将伪影判定为病变。此外，伦理层面的争议也不容忽视——当 AI 诊断与医生判断冲突时，责任界定尚无明确标准。或许，未来的'人机协同'模式不是让 AI 替代医生，而是让其成为'诊断助手'，共同提升诊疗效率。

'混合注意力网络'没有文献支撑，'某团队'数据模糊，推理跳跃，学术场景下基本不可用。

场景二：耳机营销文案，追求多样性和网感

要求针对'续航 30 小时、降噪、仅 8g'三个卖点，写三条适合社交媒体的文案。

Temperature=1.2、Top-P=0.7 的效果：

'通勤党狂喜！这副 8g 轻的耳机戴一天像没戴——地铁里的噪音被按了'静音键'，30 小时续航够我连听 3 天播客，再也不用揣着充电宝到处跑～#无线耳机推荐 #打工人必备'
'谁懂啊！终于找到'降噪 + 长续航'的神仙耳机了！仅 8g 重量，跑步时晃头都不会掉，30 小时电量让我周末露营时从早听到晚，完全不用焦虑充电～#数码好物 #露营神器'
'救命！这耳机也太懂女生了吧！比一支口红还轻（仅 8g），塞进小挎包毫无压力，降噪模式下能隔绝办公室的八卦声，30 小时续航让我出差一周都不用带充电器～#女生数码 #职场好物'

三条文案视角各异，卖点融入自然，社交媒体传播力够强。

如果把 Temperature 降到 0.3、Top-P 降到 0.4，就变成了机器人口吻：

'这款便携式无线耳机具有 30 小时续航、降噪功能和 8g 轻量化设计，适合日常使用，推荐给需要的用户。#无线耳机 #数码产品'
'便携式无线耳机的核心卖点包括 30 小时续航、降噪效果和仅 8g 的重量，使用体验良好，适合各类场景。#耳机推荐 #好物分享'
'该无线耳机支持 30 小时续航，具备降噪功能，重量仅 8g，便携性强，是不错的选择。#数码好物 #无线耳机'

卖点没错，但句句像模板，完全没灵魂。

场景三：电商销售数据分析，需要计算准确、逻辑严谨

给定 Q2、Q3 各品类销售额，算增长率，找最快增长/下降的品类，并分析原因。数据：家电 Q3 8500 万（Q2 7200 万），美妆 Q3 5200 万（Q2 5800 万），服饰 Q3 6800 万（Q2 6000 万），食品 Q3 3600 万（Q2 3500 万）。

Temperature=0.4、Top-P=0.6 时，计算和推理都比较可靠：

# 2024 年 Q3 电商平台各品类销售额趋势分析 1. 销售额增长率计算（以 Q2 为基数）： - 家电品类：(8500 - 7200)/7200 ≈ 18.06%（增长） - 美妆品类：(5200 - 5800)/5800 ≈ -10.34%（下降） - 服饰品类：(6800 - 6000)/6000 ≈ 13.33%（增长） - 食品品类：(3600 - 3500)/3500 ≈ 2.86%（增长） 2. 趋势总结： - 增长最快的品类：家电品类（18.06%），其次是服饰品类（13.33%）； - 唯一下降的品类：美妆品类（-10.34%）； - 增长最慢的品类：食品品类（2.86%）。 3. 可能原因分析： - 家电品类增长：Q3 包含'中秋 + 国庆'双节，平台推出家电促销活动（如'以旧换新补贴'），叠加消费者对智能家电（如扫地机器人、空气净化器）的需求上升，推动销售额增长； - 美妆品类下降：Q2 为'618'大促节点，消费者提前囤货导致 Q3 需求回落，且 Q3 无美妆品类核心促销日，叠加部分品牌新品延迟发布，影响销售额； - 服饰品类增长：Q3 进入夏秋换季期，平台上新秋季服饰（如风衣、针织衫），且通过'穿搭挑战赛'等营销活动带动消费； - 食品品类微增：食品为刚需品类，消费需求稳定，增长主要来自中秋礼盒（如月饼、坚果礼盒）的短期拉动，但整体需求无大幅波动。

增长率计算准确，原因与时间节点、品类特性紧密挂钩，即使重复运行，结论也不会出现矛盾。

Temperature 调到 1.3、Top-P 0.9 则会出现估算误差和臆测：

# 2024 年 Q3 电商平台各品类销售额观察 1. 销售额增长率估算： - 家电品类：(8500 - 7200)/7200 ≈ 15%（大幅增长） - 美妆品类：(5200 - 5800)/5800 ≈ -8%（小幅下降） - 服饰品类：(6800 - 6000)/6000 ≈ 12%（稳步增长） - 食品品类：(3600 - 3500)/3500 ≈ 3%（略有增长） 2. 趋势亮点： - 家电品类成为 Q3 黑马，增长率领先其他品类，可能与近期'智能家居普及潮'有关，年轻人更愿意为便捷家电买单； - 美妆品类虽有下降，但降幅可控，可能是因为消费者更倾向于'理性消费'，减少非必要美妆产品购买； - 服饰品类增长势头良好，或因平台签约了热门网红主播，带动服饰销量； - 食品品类增长平稳，符合其'日常消耗品'的属性。

增长率用'约'字打了马虎眼，分析缺乏数据支撑，这种输出没法直接用在业务报告里。

场景四：心理咨询对话，要求温暖专业、建议具体

扮演心理咨询师，回应用户'工作压力大、失眠'的诉求。

Temperature=0.7、Top-P=0.6 的回复：

'听到你说最近工作压力大到影响睡眠，我特别理解这种'脑子停不下来'的疲惫感——很多人在高压状态下都会有类似的情况，先别太责怪自己呀。

分享几个简单的小方法，你可以试试看：

睡前'大脑清空'练习：睡前 10 分钟，拿一张纸把当天没完成的工作、担心的事情写下来，告诉自己'这些事明天再处理'，帮大脑'减负'；
身体放松小技巧：躺在床上时，从脚趾开始，慢慢绷紧再放松每一组肌肉（比如脚趾→小腿→大腿→腹部→肩膀→手指），这个过程能帮身体放松，更容易进入睡眠；
调整工作节奏：如果每天都觉得忙不完，试试把工作分成'3 件最重要的事'，优先完成这 3 件，剩下的留到第二天，避免因'任务太多'产生焦虑。

如果这些方法试了一段时间还是没改善，也可以考虑找身边信任的人聊聊，或者记录一下睡眠情况（比如几点躺下、几点睡着），后续如果需要进一步调整，这些信息也会有帮助～'

语气自然，建议可操作，角色感稳定。

换成 Temperature=1.4、Top-P=0.4 则容易'人设崩塌'：

'工作压力大导致失眠确实挺麻烦的，不过你能意识到这个问题，已经很棒了！

给你几个建议：

可以试试睡前喝一杯温牛奶，很多人说有帮助，不过效果因人而异；
平时多运动，比如跑步、瑜伽，运动能释放压力，对睡眠也有好处；
如果失眠严重，可能需要吃点助眠的东西，但具体要问医生，我不能随便推荐。

另外，工作压力大的时候，也可以想想是不是自己对自己要求太高了，有时候适当放松一点，反而能做得更好～'

'吃点助眠的东西'这种建议从心理咨询师口中说出很不专业，选词失控直接导致角色偏离。

怎么调才靠谱

从上面的实验能看出规律：

任务类型	核心目标	Temperature 范围	Top-P 范围
准确性优先（学术、法律）	输出无错误、数据准、逻辑严	0.1～0.4	0.2～0.5
多样性优先（文案、小说）	创新、有差异、语言生动	0.8～1.5	0.6～0.8
一致性优先（报告模板、API返回）	多次运行框架稳定、结论不矛盾	0.3～0.6	0.5～0.7
自然度优先（客服、角色扮演）	对话流畅、角色一致、不突兀	0.5～0.9	0.5～0.7

实际调参时，我习惯先固定 Top-P 在 0.6 左右，只调整 Temperature，每次 0.1～0.2 地微调，观察输出是死板还是混乱，快速定出大区间。等 Temperature 感觉差不多了，再动 Top-P：如果偶尔跑题，就降 0.1；如果几条输出高度雷同，就降一点点（比如从 0.6 到 0.5），让候选词库稍微收窄，反而可能增加多样性——这有点反直觉，但实测确实如此。

有几个常见坑要避开：

盲目求高：Temperature 超 1.5、Top-P 超 0.9 后，多数任务都会翻车。除非是纯创意发散（比如写诗），否则别轻易碰极端值。
同时大调两个参数：根本分不清是谁在起作用，只能反复试错。每次只动一个，幅度小一点。
忽视模型差异：ChatGPT-4 对 Temperature 相对钝感，Gemini Pro 则敏感很多，同一组设置换模型必须重测。

每次调出来觉得好用的组合，随手记下来，比如'学术摘要：T=0.3，P=0.4''营销文案：T=1.1，P=0.7'。久了就能攒出一套自己的参数模板，碰到类似任务直接复用，省掉大量试错时间。

Temperature 和 Top-P 没有一招鲜的黄金数值，但搞清楚它们的脾气，就能让提示词的威力真正释放出来。

在这里插入图片描述

Temperature：缩放概率分布，控制冒险程度

直观对比：

Temperature=0.1：就像厨师只按固定菜谱来，每道菜味道一致，毫无新意。
Temperature=1.8：厨师开始用各种新奇搭配，可能惊艳，也可能变成黑暗料理。

Top-P：核采样，限定候选池大小

类比一把：

Top-P=0.2：老师只划 20% 的重点，考试答案集中在很小的范围。
Top-P=1.0：所有知识点都可能考，答案可能新锐但容易跑题。

两者的关键差异：

在这里插入图片描述

理论说再多，不如跑几个例子实在。下面用同一组提示词，切换不同参数，看看输出到底差在哪里。

场景一：学术摘要，要求数据准确、逻辑严密

提示词：写一段'人工智能在医学影像诊断中的应用现状'，需要包含 CNN、Transformer 等核心技术，给出临床效果数据，并总结现存挑战。

先用低温度 + 低 Top-P（Temperature=0.2，Top-P=0.3）：

# 人工智能在医学影像诊断中的应用现状 人工智能（AI）在医学影像诊断领域的应用已逐步从实验室走向临床，其中卷积神经网络（CNN）与视觉 Transformer（ViT）是当前主流核心技术。据《Nature Medicine》2024 年研究数据显示，基于 CNN 的肺癌 CT 影像诊断模型准确率可达 94.2%，较传统人工诊断（平均准确率 88.6%）提升 5.6 个百分点；ViT 模型在乳腺 X 线影像诊断中的误诊率低至 3.1%，显著优于传统机器学习方法（误诊率 7.8%）。当前应用的现存挑战主要包括三方面：1）数据质量差异——不同医院影像设备的分辨率、成像标准不统一，导致模型泛化能力下降；2）标注数据稀缺——罕见病影像样本量不足，限制模型对小众病例的诊断能力；3）临床信任度——医生对 AI 诊断结果的解释性需求未被满足，部分场景下仍依赖人工复核。未来需通过多中心数据共享、半监督学习技术优化及可解释 AI（XAI）研发，进一步推动 AI 在医学影像诊断中的规模化应用。

结构清晰，引用规范，逻辑完整。多次运行，整体框架和关键数据都能保持一致。

把 Temperature 拉到 1.5、Top-P 调到 0.9 再试：

# 人工智能赋能医学影像：从像素到诊断的革命 当 AI 的'眼睛'透过 CT 影像的像素纹理捕捉到早期肺癌的细微征兆时，医学诊断的范式正悄然改变。除了广为人知的 CNN 模型，近期兴起的'混合注意力网络'（一种融合 CNN 局部特征与 Transformer 全局关联的新架构）在脑部 MRI 诊断中展现出惊人潜力——某团队测试显示其对脑胶质瘤的早期识别率比传统方法高出近 12%，这一突破可能改写神经外科的诊疗流程。不过，AI 并非完美的'诊断专家'：部分模型在处理儿童影像时会出现'过度拟合'（因儿童影像样本中骨骼结构与成人差异大），而在基层医院，设备的'低分辨率噪声'可能让 AI 误将伪影判定为病变。此外，伦理层面的争议也不容忽视——当 AI 诊断与医生判断冲突时，责任界定尚无明确标准。或许，未来的'人机协同'模式不是让 AI 替代医生，而是让其成为'诊断助手'，共同提升诊疗效率。

'混合注意力网络'没有文献支撑，'某团队'数据模糊，推理跳跃，学术场景下基本不可用。

场景二：耳机营销文案，追求多样性和网感

要求针对'续航 30 小时、降噪、仅 8g'三个卖点，写三条适合社交媒体的文案。

Temperature=1.2、Top-P=0.7 的效果：

'通勤党狂喜！这副 8g 轻的耳机戴一天像没戴——地铁里的噪音被按了'静音键'，30 小时续航够我连听 3 天播客，再也不用揣着充电宝到处跑～#无线耳机推荐 #打工人必备'
'谁懂啊！终于找到'降噪 + 长续航'的神仙耳机了！仅 8g 重量，跑步时晃头都不会掉，30 小时电量让我周末露营时从早听到晚，完全不用焦虑充电～#数码好物 #露营神器'
'救命！这耳机也太懂女生了吧！比一支口红还轻（仅 8g），塞进小挎包毫无压力，降噪模式下能隔绝办公室的八卦声，30 小时续航让我出差一周都不用带充电器～#女生数码 #职场好物'

三条文案视角各异，卖点融入自然，社交媒体传播力够强。

如果把 Temperature 降到 0.3、Top-P 降到 0.4，就变成了机器人口吻：

'这款便携式无线耳机具有 30 小时续航、降噪功能和 8g 轻量化设计，适合日常使用，推荐给需要的用户。#无线耳机 #数码产品'
'便携式无线耳机的核心卖点包括 30 小时续航、降噪效果和仅 8g 的重量，使用体验良好，适合各类场景。#耳机推荐 #好物分享'
'该无线耳机支持 30 小时续航，具备降噪功能，重量仅 8g，便携性强，是不错的选择。#数码好物 #无线耳机'

卖点没错，但句句像模板，完全没灵魂。

场景三：电商销售数据分析，需要计算准确、逻辑严谨

Temperature=0.4、Top-P=0.6 时，计算和推理都比较可靠：

# 2024 年 Q3 电商平台各品类销售额趋势分析 1. 销售额增长率计算（以 Q2 为基数）： - 家电品类：(8500 - 7200)/7200 ≈ 18.06%（增长） - 美妆品类：(5200 - 5800)/5800 ≈ -10.34%（下降） - 服饰品类：(6800 - 6000)/6000 ≈ 13.33%（增长） - 食品品类：(3600 - 3500)/3500 ≈ 2.86%（增长） 2. 趋势总结： - 增长最快的品类：家电品类（18.06%），其次是服饰品类（13.33%）； - 唯一下降的品类：美妆品类（-10.34%）； - 增长最慢的品类：食品品类（2.86%）。 3. 可能原因分析： - 家电品类增长：Q3 包含'中秋 + 国庆'双节，平台推出家电促销活动（如'以旧换新补贴'），叠加消费者对智能家电（如扫地机器人、空气净化器）的需求上升，推动销售额增长； - 美妆品类下降：Q2 为'618'大促节点，消费者提前囤货导致 Q3 需求回落，且 Q3 无美妆品类核心促销日，叠加部分品牌新品延迟发布，影响销售额； - 服饰品类增长：Q3 进入夏秋换季期，平台上新秋季服饰（如风衣、针织衫），且通过'穿搭挑战赛'等营销活动带动消费； - 食品品类微增：食品为刚需品类，消费需求稳定，增长主要来自中秋礼盒（如月饼、坚果礼盒）的短期拉动，但整体需求无大幅波动。

增长率计算准确，原因与时间节点、品类特性紧密挂钩，即使重复运行，结论也不会出现矛盾。

Temperature 调到 1.3、Top-P 0.9 则会出现估算误差和臆测：

# 2024 年 Q3 电商平台各品类销售额观察 1. 销售额增长率估算： - 家电品类：(8500 - 7200)/7200 ≈ 15%（大幅增长） - 美妆品类：(5200 - 5800)/5800 ≈ -8%（小幅下降） - 服饰品类：(6800 - 6000)/6000 ≈ 12%（稳步增长） - 食品品类：(3600 - 3500)/3500 ≈ 3%（略有增长） 2. 趋势亮点： - 家电品类成为 Q3 黑马，增长率领先其他品类，可能与近期'智能家居普及潮'有关，年轻人更愿意为便捷家电买单； - 美妆品类虽有下降，但降幅可控，可能是因为消费者更倾向于'理性消费'，减少非必要美妆产品购买； - 服饰品类增长势头良好，或因平台签约了热门网红主播，带动服饰销量； - 食品品类增长平稳，符合其'日常消耗品'的属性。

增长率用'约'字打了马虎眼，分析缺乏数据支撑，这种输出没法直接用在业务报告里。

场景四：心理咨询对话，要求温暖专业、建议具体

扮演心理咨询师，回应用户'工作压力大、失眠'的诉求。

Temperature=0.7、Top-P=0.6 的回复：

'听到你说最近工作压力大到影响睡眠，我特别理解这种'脑子停不下来'的疲惫感——很多人在高压状态下都会有类似的情况，先别太责怪自己呀。

分享几个简单的小方法，你可以试试看：

睡前'大脑清空'练习：睡前 10 分钟，拿一张纸把当天没完成的工作、担心的事情写下来，告诉自己'这些事明天再处理'，帮大脑'减负'；
身体放松小技巧：躺在床上时，从脚趾开始，慢慢绷紧再放松每一组肌肉（比如脚趾→小腿→大腿→腹部→肩膀→手指），这个过程能帮身体放松，更容易进入睡眠；
调整工作节奏：如果每天都觉得忙不完，试试把工作分成'3 件最重要的事'，优先完成这 3 件，剩下的留到第二天，避免因'任务太多'产生焦虑。

语气自然，建议可操作，角色感稳定。

换成 Temperature=1.4、Top-P=0.4 则容易'人设崩塌'：

'工作压力大导致失眠确实挺麻烦的，不过你能意识到这个问题，已经很棒了！

给你几个建议：

可以试试睡前喝一杯温牛奶，很多人说有帮助，不过效果因人而异；
平时多运动，比如跑步、瑜伽，运动能释放压力，对睡眠也有好处；
如果失眠严重，可能需要吃点助眠的东西，但具体要问医生，我不能随便推荐。

另外，工作压力大的时候，也可以想想是不是自己对自己要求太高了，有时候适当放松一点，反而能做得更好～'

'吃点助眠的东西'这种建议从心理咨询师口中说出很不专业，选词失控直接导致角色偏离。

怎么调才靠谱

从上面的实验能看出规律：

任务类型	核心目标	Temperature 范围	Top-P 范围
准确性优先（学术、法律）	输出无错误、数据准、逻辑严	0.1～0.4	0.2～0.5
多样性优先（文案、小说）	创新、有差异、语言生动	0.8～1.5	0.6～0.8
一致性优先（报告模板、API返回）	多次运行框架稳定、结论不矛盾	0.3～0.6	0.5～0.7
自然度优先（客服、角色扮演）	对话流畅、角色一致、不突兀	0.5～0.9	0.5～0.7

有几个常见坑要避开：

盲目求高：Temperature 超 1.5、Top-P 超 0.9 后，多数任务都会翻车。除非是纯创意发散（比如写诗），否则别轻易碰极端值。
同时大调两个参数：根本分不清是谁在起作用，只能反复试错。每次只动一个，幅度小一点。
忽视模型差异：ChatGPT-4 对 Temperature 相对钝感，Gemini Pro 则敏感很多，同一组设置换模型必须重测。

Temperature 和 Top-P 没有一招鲜的黄金数值，但搞清楚它们的脾气，就能让提示词的威力真正释放出来。

Temperature 和 Top-P 调参手记：从输出翻车到稳定产出的经验

Temperature：缩放概率分布，控制冒险程度

Top-P：核采样，限定候选池大小

怎么调才靠谱

Temperature 和 Top-P 调参手记：从输出翻车到稳定产出的经验

Temperature：缩放概率分布，控制冒险程度

Top-P：核采样，限定候选池大小

怎么调才靠谱

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

Temperature 和 Top-P 调参手记：从输出翻车到稳定产出的经验

Temperature：缩放概率分布，控制冒险程度

Top-P：核采样，限定候选池大小

怎么调才靠谱

Temperature 和 Top-P 调参手记：从输出翻车到稳定产出的经验

Temperature：缩放概率分布，控制冒险程度

Top-P：核采样，限定候选池大小

怎么调才靠谱

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具