OpenAI突发新模型:用GPT改进GPT训练,左脚踩右脚登天,RLHF突破人类能力上限

OpenAI突发新模型:用GPT改进GPT训练,左脚踩右脚登天,RLHF突破人类能力上限

OpenAI突发新模型:用GPT改进GPT训练,左脚踩右脚登天,RLHF突破人类能力上限

原创 关注前沿科技  2024年06月28日 09:46 北京

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI突然发布新模型!基于GPT-4训练,可以帮助下一代GPT训练

CriticGPT,用于给代码挑Bug时能找到75%以上,而相比之下人类只能找到不到25%。

它还可以给Bug写“锐评”,在60%的情况下人类训练师更喜欢有CriticGPT帮助下的批评。

www.zeeklog.com  - OpenAI突发新模型:用GPT改进GPT训练,左脚踩右脚登天,RLHF突破人类能力上限

有网友开玩笑说,“只会批评的GPT,这不是我前妻么”。

www.zeeklog.com  - OpenAI突发新模型:用GPT改进GPT训练,左脚踩右脚登天,RLHF突破人类能力上限

但这项研究最重要之处在于,CriticGPT挑错能力可以泛化到代码之外。

比如在RLHF训练中给AI的输出挑错,而且已经进入OpenAI内部训练流程

www.zeeklog.com  - OpenAI突发新模型:用GPT改进GPT训练,左脚踩右脚登天,RLHF突破人类能力上限

更好的RLHF就能训练出更强的模型,更强的模型又能通过更好地挑错来增强RLHF训练……

论文结论中赫然写道:在真实世界数据中挑错误上,AI还可以继续进步,人类智能已经到头了。

www.zeeklog.com  - OpenAI突发新模型:用GPT改进GPT训练,左脚踩右脚登天,RLHF突破人类能力上限

左脚踩右脚上天,难道真的被这帮人给搞出来了?

www.zeeklog.com  - OpenAI突发新模型:用GPT改进GPT训练,左脚踩右脚登天,RLHF突破人类能力上限

这是一篇来自被解散的超级对齐团队的“遗作”,由前负责人Jan Leike带队。

而Leike本人已经跳槽去了隔壁Anthropic,继续做这类研究。

www.zeeklog.com  - OpenAI突发新模型:用GPT改进GPT训练,左脚踩右脚登天,RLHF突破人类能力上限

基于GPT-4,改进GPT-4

OpenAI官网文章变相承认了,GPT-4之后这么久没有大的改进,还真的遇到一些瓶颈:

随着AI能力变强,它犯的错也不那么显眼了,人类训练师都难以发现不准确之处。

人类给不出反馈,那RLHF“人类反馈强化学习”就无从谈起了。

www.zeeklog.com  - OpenAI突发新模型:用GPT改进GPT训练,左脚踩右脚登天,RLHF突破人类能力上限

CriticGPT正是为了应对这一挑战而生。

CriticGPT基于GPT-4,也接受了RLHF训练出,但特别之处在于训练数据中包含大量的错误输入。

具体来说,分为三步:

让人类标注员在ChatGPT生成的代码里故意植入一些微妙的bug。

标注员扮演代码审查员的角色,写下他们对这些bug的评论。

用这些数据来训练CriticGPT,让它学会如何发现和指出代码中的问题。

www.zeeklog.com  - OpenAI突发新模型:用GPT改进GPT训练,左脚踩右脚登天,RLHF突破人类能力上限

在具体训练过程中,他们还玩了点花样。

比如不断让标注员验证自己插入的bug是否足够隐蔽,能够骗过当前版本的CriticGPT。这样一来,CriticGPT就被迫不断进化,学会发现越来越隐蔽的问题。

思路有点像GAN的左右互搏,只不过生成器这个位置是人类来充当的……

最后,OpenAI还使用了一种“强制采样束搜索”(FSBS)的技术,允许CriticGPT在生成评论时既能保持全面,又能减少”幻觉”和“鸡蛋里挑骨头”现象。

具体来说,FSBS会强制模型生成多个不同的评论片段,用奖励模型对这些片段进行评分,最后根据评分和一个长度修正因子来选择最佳的评论组合。

通过调整长度修正因子,可以在评论的全面性和准确性之间找到最佳平衡点,既不会错过重要问题,又不会过度挑剔。

www.zeeklog.com  - OpenAI突发新模型:用GPT改进GPT训练,左脚踩右脚登天,RLHF突破人类能力上限

等一下,推理时搜索,这不正是和传闻中的Q*一个思路,这次居然写到了论文里。

可能是看,就不再藏着掖着了。

www.zeeklog.com  - OpenAI突发新模型:用GPT改进GPT训练,左脚踩右脚登天,RLHF突破人类能力上限

说回到CriticGPT,取得了哪些结果呢?

在发现人为插入的bug方面,人类审核员平均只能找到25%,而CriticGPT的成功率高达75%以上

在评估自然出现的Bug时,有63%的情况下人类更倾向于选择CriticGPT的评论而非人类评论

CriticGPT的评论被认为比ChatGPT的更全面,更少出现”幻觉”和无关紧要的挑剔

在评估非代码任务时,成功识别出数百个在ChatGPT训练数据中被人类认为是”完美”的错误。

不过CriticGPT也不是十全十美,它也会有”幻觉”问题,指出一些实际上不存在的问题。

目前,人类和CriticGPT组队工作效果最好:既能发现大部分问题,又能避免AI的”幻觉”。

www.zeeklog.com  - OpenAI突发新模型:用GPT改进GPT训练,左脚踩右脚登天,RLHF突破人类能力上限

RLHF上限不再是人类

对于CriticGPT,负责这项研究的Jan Leike也补充了他自己的一些看法。

www.zeeklog.com  - OpenAI突发新模型:用GPT改进GPT训练,左脚踩右脚登天,RLHF突破人类能力上限

RLHF是创造出ChatGPT的核心技术之一,但隐患在于人类能力就是RLHF的天花板。

当需要AI去解决人类无能为力的任务时,人类给不出相应反馈,AI也就无法改进了。

CriticGPT的成功,意味着超级对齐团队设想中的可扩展监督,也就是用弱模型监督训练更强的模型,终于有希望了。

www.zeeklog.com  - OpenAI突发新模型:用GPT改进GPT训练,左脚踩右脚登天,RLHF突破人类能力上限

不过他也透露,目前CriticGPT并没有帮助人类显著提高艰难任务上的准确性,但是框架有了只要有更好的预训练模型就能不断改进。

www.zeeklog.com  - OpenAI突发新模型:用GPT改进GPT训练,左脚踩右脚登天,RLHF突破人类能力上限

为什么先从代码任务开始入手呢?

一方面,代码任务有现实意义,做出来的模型可以直接用上。

另一方面,代码可以清晰明确的评估,比开放式对话更客观,更容易评估CriticGPT发现的问题是否真实和重要。

结果CriticGPT在代码上训练,却不仅能挑代码Bug,还给1/4的ChatGPT生产数据挑出了问题。

www.zeeklog.com  - OpenAI突发新模型:用GPT改进GPT训练,左脚踩右脚登天,RLHF突破人类能力上限

最后,由于原OpenAI超级对齐团队已经解散,已经跳槽的Jan Leike插入了一条Anthropic招聘广告:

想做后续研究的请去隔壁。

也是让人不得不感叹硅谷是真的没有竞业协议。

www.zeeklog.com  - OpenAI突发新模型:用GPT改进GPT训练,左脚踩右脚登天,RLHF突破人类能力上限

One More Thing

同日,谷歌发布了开源大模型Gemma 2,OpenAI赶紧甩出一条消息来狙击,这都第几次了。

www.zeeklog.com  - OpenAI突发新模型:用GPT改进GPT训练,左脚踩右脚登天,RLHF突破人类能力上限

对于甩出来的不是Sora公测或者GPT-4o完整语音、视频模式,也有很多人不满。

有网友提了个更好的主意:

做个ReleaseGPT,专门用来发布承诺好的更新吧。
www.zeeklog.com  - OpenAI突发新模型:用GPT改进GPT训练,左脚踩右脚登天,RLHF突破人类能力上限

不过这次OpenAI久违的放出了论文,也还算有一些诚意。

论文地址:
https://cdn.openai.com/llm-critics-help-catch-llm-bugs-paper.pdf

参考链接:
[1]https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/
[2]https://x.com/janleike/status/1806386442568142995

Read more

2021年新项目的Python最佳实践

2021年新项目的Python最佳实践

介绍 本教程的目标是描述Python开发生态系统。对于从另一种编程语言来使用Python的人来说,这是很有帮助的。 他们说你应该坚持算法和数据结构,你可以在几周内学习一门新的语言,这只是一种新的语法。我完全同意算法和数据结构是非常重要的,但是对于语言来说,它不仅仅是语法。它周围有一整套工具和最佳实践的基础设施。对于来自不同背景的人来说,跟上所有这些东西可能是势不可挡的,特别是考虑到有时信息应该在不同的地方找到。 这是我非常固执己见的尝试,试图编译一些关于为本地开发建立一个新的Python环境的最佳实践。还有一些关于将这些工具与VisualStudio代码集成的建议,但是,没有必要使用这个特定的编辑器。我将更新此页面,因为底层工具有一些更改。我还计划自己使用它作为启动新Python项目的样板。本教程很长,因为我详细解释了这些工具的用途和用法,但是,最终的结果是快速设置新的项目环境,只需几分钟就可以实现。西西。 如何使用pyenv管理Python版本? 为什么要用pyenv? 许多教程的开头都是一样的:并为您下载最新版本的语言平台。别听他们的。还有更好的办法。这就是为什么。

By Ne0inhk
对于IT男的表白方式,你可能存在什么误解

对于IT男的表白方式,你可能存在什么误解

网络情人节 对于即将到来的网络情人节(520),程序员是怎么看待它的呢? 不知道大家是否会期待这天的到来,但对于我这个程序猿来说: * 从主观来讲,不放假的节日,都不算节日 * 从客观来讲,由消费带动的节日,都不是纯粹的节日 找这么多理由,其实归根结底,主要是以为“穷”,穷人过什么节日啊! IT男的思维 今天随手翻UC,看到一个关于程序猿520表白的段子。 虽然是17年的老梗,但当时帖子比较火名为“她根本配不上我这么聪明的男人!” 段子是一张长图,想想最近比较无聊,拿它做个Python的练习题呗。 图片的拆分与合并 Python的PIL模块在对图片处理上简直方便的不行... 先来说说图片的拆分吧 先来看看长图,内容是一共16张对白拼成的段子,其实我们只要把这16张图按照等高的方式进行裁剪就OK了,so easy! 代码主要用到了Image.crop(cropBox)的裁剪方式。 至于crop的拆分,点进去函数就能看到相关注释: Returns a rectangular region from this image. The box is

By Ne0inhk
防护疫情,人人有责,我用Django做了一个疫情数据报告 来看看你今天是否适合出门

防护疫情,人人有责,我用Django做了一个疫情数据报告 来看看你今天是否适合出门

Django 是 Python web框架,发音 [ˈdʒæŋɡo] ,翻译成中文叫“姜狗”。 为什么要学框架?其实我们自己完全可以用 Python 代码从0到1写一个web网站,但那样就要写网络服务、数据库读写等底层代码。而框架的作用是把这些底层基建已经搭建好了,我们只写业务逻辑即可。 举个例子,楼房就是框架,我们不关心底层的脚手架、钢筋水泥是如何搭建的,只要有了这样的框架我们就可以住进去,而里面的房间要怎么设计、装饰才是我们关心的。 1 初识Django 我使用的 Python 版本是 3.8,先执行下面语句先安装 Django pip install Django `` 安装完成后,执行下面语句创建 Django 项目 django-admin startproject duma 项目的名称可以自定义,我创建的项目名是 duma。 命令执行完毕后,在当前目录会生成 duma 目录,该目录包含以下源文件。

By Ne0inhk
用Python爬虫获取今日全国高温Top10

用Python爬虫获取今日全国高温Top10

热出天际 今天全国到底有多热暂时不知道,反正我大西安今天是热出天际了! 还没入伏就能有这样的温度,各大空调厂商是给老天送了多少供奉啊.... 之前做天气预报自动推送小工具的时候,爬过,今天就再盘它一次,来看看全国天气吧 首先进入中国天气网,有一个国内天气预报的栏目: 国内天气预报.png 如上图所示,网站将中国分为: 华为、东北、华南、西北、西南、华东、华中、港澳台及大地域,西安属于西北,进去看看: 西安天气.png 看到这温度,我就想到了小岳岳的那句我的天哪...! 咱们来分析下这张图,每个省的第一个诚实都是省会城市,省内的温度差别不大,那我们就把全国每个省会城市的温度进行比较吧,至于港澳台...我选择直接忽视。 网站分析 网站html分析 网站html代码.png * 每日天气 <div class="conMidtab"> conMidtab一共有7个,后6个添加了隐藏样式style="

By Ne0inhk