Tranformer架构的劲敌,RWKV-6-World-14B最强稠密纯RNN模型开源

Tranformer架构的劲敌,RWKV-6-World-14B最强稠密纯RNN模型开源

Tranformer架构的劲敌,RWKV-6-World-14B最强稠密纯RNN模型开源

2024年07月21日 17:30 北京

始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区将打造成huggingface之外最活跃的中立开放的AI开源社区。欢迎《》以及《》。wisemodel社区上升级了体验空间,,并。

www.zeeklog.com  - Tranformer架构的劲敌,RWKV-6-World-14B最强稠密纯RNN模型开源

2024年7月19日,RWKV 开源基金会宣布正式向全球开源 RWKV-6-World 14B 模型,大家可以前往始智AI wisemodel.cn开源社区了解。RWKV-6-World 14B 是迄今最强的稠密纯 RNN 大语言模型。

www.zeeklog.com  - Tranformer架构的劲敌,RWKV-6-World-14B最强稠密纯RNN模型开源

https://wisemodel.cn/models/rwkv4fun/Rwkv-6-world(模型地址)

在最新的性能测试中, RWKV-6-World 14B 模型英文性能相当于 Llama2 13b。此外,在同参数的模型评测中,RWKV-6-World 14B 的多语言性能显著最强,且支持全球100+种语言和代码。

在“无法作弊的模型评测” Uncheatable Eval 排行榜中,RWKV-6-World 14B 的综合评测分数比 llama2 13B 和 Qwen1.5 14B 更强。

01

评测结果

本次模型基准测试涵盖了 4 款接近 14B 参数规模的开源大语言模型。

在测试中,英语的性能测试将通过 12 个独立的基准测试来衡量大模型在常识推理和世界知识等英语内容上的表现。

多语言能力的评估中,则采用了 xLAMBDA、xStoryCloze、 xWinograd 和 xCopa 四种基准测试,深度探索了评估模型在多语言环境中的逻辑推理、故事理解、歧义解决和因果推理能力。

www.zeeklog.com  - Tranformer架构的劲敌,RWKV-6-World-14B最强稠密纯RNN模型开源

14B 开源模型的测试结果

由于 RWKV-5 系列模型最大只有 7B 参数,选择 RWKV-4 14B 模型作为纵向对比。

可以看到,相比于此前发布的 RWKV-4 14B 模型,RWKV-6-World 14B 的英文性能和多语言性能都获得巨大提升。

不作弊的 RWKV 模型

值得强调的是,在训练 RWKV 模型时,并未加入任何基准测试的数据集。换言之,没有为了获取更佳的评分结果而进行特殊优化。

RWKV 不刷榜也不刷星,因此 RWKV 模型的实际能力比它的各种评分排行更强。

既然承诺不作弊,也对 RWKV-6-World-14B 模型进行了  “无法作弊的模型评测” ——Uncheatable Eval。

Uncheatable Eval 会使用最新的 arXiv 论文、新闻文章、小说数据和 GitHub 代码等实时语料库,以此来评估语言模型的真实建模能力和泛化能力。

RWKV-6-World 14B 的 Uncheatable Eval 评测

此次 Uncheatable Eval 评测选取了常见的 5 款开源 14B 参数模型,测评数据则选择 7 月最新发布的 arXiv 论文、新闻、ao3 小说和 GitHub 代码等实时数据。

具体评分和综合排名如下:

www.zeeklog.com  - Tranformer架构的劲敌,RWKV-6-World-14B最强稠密纯RNN模型开源

14B 模型 Uncheatable Eval 评测

可以看到,RWKV-6-World 14B 在此次测试中排行第 2,综合评测分数比相同尺寸的 llama2 和 Qwen1.5 更强。

而 Mistral 最新发布的 12B 模型使用了比 RWKV-6 多几倍的数据,它的性能更强。后续将会继续为 RWKV 模型补充优质数据,与它看齐。

02

模型下载和体验

目前 RWKV-6-World 14B 模型还没有在线 Demo,可以从HF、wisemodel和modelscope等平台下载 RWKV-6-World 14B 模型并本地部署

由于 A100/A800 只支持 safetensor(.st)格式的模型,如果你打算使用 A100 体验 RWKV-6-World 14B 模型 ,可以在HF 仓库中下载已经转成 .st 格式的模型。

本地部署显存需求

如果你计划本地部署并推理 RWKV-6-World 14B 模型,参考的 VRAM (显存)消耗如下:

量化方式              显存参考

fp16                      约 28G

int8 -量化 56 层    约 15G

nf4 - 量化 56 层    约 10G

新模型效果预览

以下为 RWKV-6-World 14B 模型的实测效果:

以下案例使用 A100作为推理服务器,int8 + 30 层量化,未加载任何 State

自然语言处理(情感分析)

www.zeeklog.com  - Tranformer架构的劲敌,RWKV-6-World-14B最强稠密纯RNN模型开源

自然语言处理(机器阅读理解)

www.zeeklog.com  - Tranformer架构的劲敌,RWKV-6-World-14B最强稠密纯RNN模型开源

散文诗文学创作

www.zeeklog.com  - Tranformer架构的劲敌,RWKV-6-World-14B最强稠密纯RNN模型开源

阅读并修改一段代码

www.zeeklog.com  - Tranformer架构的劲敌,RWKV-6-World-14B最强稠密纯RNN模型开源

金融学论文选题建议

www.zeeklog.com  - Tranformer架构的劲敌,RWKV-6-World-14B最强稠密纯RNN模型开源

提取新闻关键内容

www.zeeklog.com  - Tranformer架构的劲敌,RWKV-6-World-14B最强稠密纯RNN模型开源

一句话扩写文本

www.zeeklog.com  - Tranformer架构的劲敌,RWKV-6-World-14B最强稠密纯RNN模型开源

python 贪吃蛇小游戏

www.zeeklog.com  - Tranformer架构的劲敌,RWKV-6-World-14B最强稠密纯RNN模型开源

注意:目前开源发布的所有 RWKV 模型均为基底模型。

基底模型具备一定的指令和 对话能力,但为了保持其通用性和泛化能力,基底模型未进行任何对齐,也未针对某一类任务做优化。因此,基底模型在特定任务上的表现并不代表 RWKV 模型最优水准。

供稿:RWKV团队

编辑:赵雅鑫

-----    END   -----

wisemodel相关

系统升级

系列模型:

Read more

深入理解 Proxy 和 Object.defineProperty

在JavaScript中,对象是一种核心的数据结构,而对对象的操作也是开发中经常遇到的任务。在这个过程中,我们经常会使用到两个重要的特性:Proxy和Object.defineProperty。这两者都允许我们在对象上进行拦截和自定义操作,但它们在实现方式、应用场景和灵活性等方面存在一些显著的区别。本文将深入比较Proxy和Object.defineProperty,包括它们的基本概念、使用示例以及适用场景,以帮助读者更好地理解和运用这两个特性。 1. Object.defineProperty 1.1 基本概念 Object.defineProperty 是 ECMAScript 5 引入的一个方法,用于直接在对象上定义新属性或修改已有属性。它的基本语法如下: javascript 代码解读复制代码Object.defineProperty(obj, prop, descriptor); 其中,obj是目标对象,prop是要定义或修改的属性名,descriptor是一个描述符对象,用于定义属性的特性。 1.2 使用示例 javascript 代码解读复制代码//

By Ne0inhk

Proxy 和 Object.defineProperty 的区别

Proxy 和 Object.defineProperty 是 JavaScript 中两个不同的特性,它们的作用也不完全相同。 Object.defineProperty 允许你在一个对象上定义一个新属性或者修改一个已有属性。通过这个方法你可以精确地定义属性的特征,比如它是否可写、可枚举、可配置等。该方法的使用场景通常是需要在一个对象上创建一个属性,然后控制这个属性的行为。 Proxy 也可以用来代理一个对象,但是相比于 Object.defineProperty,它提供了更加强大的功能。使用 Proxy 可以截获并重定义对象的基本操作,比如访问属性、赋值、函数调用等等。在这些操作被执行之前,可以通过拦截器函数对这些操作进行拦截和修改。因此,通过 Proxy,你可以完全重写一个对象的默认行为。该方法的使用场景通常是需要对一个对象的行为进行定制化,或者需要在对象上添加额外的功能。 对比 以下是 Proxy 和 Object.defineProperty 的一些区别对比: 方面ProxyObject.defineProperty语法使用 new Proxy(target,

By Ne0inhk