JetMoE:以 10 万美元实现 LLaMA2 性能 github

JetMoE:以 10 万美元实现 LLaMA2 性能 github

JetMoE:以 10 万美元实现 LLaMA2 性能

关键信息

JetMoE-8B 的训练成本不到 10 万美元1 ,但表现却优于拥有数十亿美元训练资源的Meta AI 的 LLaMA2-7B。LLM培训可能比人们之前想象的要便宜得多

JetMoE-8B 是完全开源且适合学术界的,因为:

  • 它只使用公共数据集进行训练,并且代码是开源的。不需要专有资源。
  • 它可以利用大多数实验室能够承受的非常有限的计算预算(例如,消费级 GPU)进行微调。

JetMoE-8B在推理过程中仅需要 2.2B 活动参数,大大降低了计算成本。与 Gemma-2B 等具有类似推理计算的模型相比,JetMoE-8B 的表现持续优于其他模型。

1我们使用了 96×H100 GPU 集群持续了 2 周,花费约为 8 万美元。

网址:

HuggingFace:

Lepton AI 在线演示:

技术报告:

作者

、、和共同贡献。技术咨询请联系。媒体和合作咨询请联系。

合作

如果你有很好的想法,但需要更多资源(GPU、数据、资金等) ,欢迎通过曾毅联系MyShell.ai。MyShell.ai开放合作,积极支持优质开源项目。

基准

我们使用与 Open LLM 排行榜相同的评估方法。对于 MBPP 代码基准,我们使用与 LLaMA2 和 Deepseek-MoE 论文相同的评估方法。结果如下所示:

模型激活参数训练代币开放法学硕士排行榜平均值赫拉斯瓦格莫尔登大学诚实问答维诺格兰德GSM8k马来西亚公共服务局人力评估
射击二十五10505530
公制acc_normacc_norm会计麦克会计会计通行证@1通行证@1
LLaMA2-7B7B2T51.053.178.646.938.87414.520.812.8
LLaMA-13B13B1吨51.456.280.947.739.576.27.622.015.8
DeepseekMoE-16B2.8亿2T51.153.279.846.336.173.717.334.025.0
杰玛-2B2B2T46.448.471.841.833.166.316.928.024.4
杰特莫E-8B2.2B1.25吨53.048.780.549.241.770.227.834.214.6
模型MT-Bench 分数
GPT-49.014
GPT-3.5-涡轮7.995
克劳德-v17.923
JetMoE-8B-聊天6.681
骆驼-2-13b-聊天6.650
Vicuna-13b-v1.36.413
巫师-13b6.353
骆驼-2-7b-聊天6.269

令人惊讶的是,尽管训练成本和计算量较低,JetMoE-8B 的表现甚至优于 LLaMA2-7B、LLaMA-13B 和 DeepseekMoE-16B。与具有类似训练和推理计算量的模型(如 Gemma-2B)相比,JetMoE-8B 取得了更好的性能。

模型使用

要加载模型,您需要安装此包:

<span style="background-color:var(--bgColor-muted, var(--color-canvas-subtle))"><span style="color:#1f2328"><span style="color:var(--fgColor-default, var(--color-fg-default))"><span style="background-color:var(--bgColor-muted, var(--color-canvas-subtle))"><code>pip install -e .
</code></span></span></span></span>

然后您可以使用以下代码加载模型:  from transformers import AutoTokenizer, AutoModelForCausalLM, AutoConfig, AutoModelForSequenceClassification from jetmoe import JetMoEForCausalLM, JetMoEConfig, JetMoEForSequenceClassification AutoConfig.register("jetmoe", JetMoEConfig) AutoModelForCausalLM.register(JetMoEConfig, JetMoEForCausalLM) AutoModelForSequenceClassification.register(JetMoEConfig, JetMoEForSequenceClassification) tokenizer = AutoTokenizer.from_pretrained('jetmoe/jetmoe-8b') model = AutoModelForCausalLM.from_pretrained('jetmoe/jetmoe-8b')

模型详细信息

模型细节和训练细节请参阅技术报告

致谢

感谢对第二阶段数据混合提出的宝贵建议,也感谢在搭建GPU集群方面给予的帮助。

Read more

LibreChat 集成 Stripe 支付的奶妈级教程

LibreChat 集成 Stripe 支付的奶妈级教程

我们假设你已经熟悉基本的 React 和 Node.js 开发,并且正在使用 LibreChat 的默认技术栈(React 前端、Node.js 后端、Vite 构建工具,可能还有 Electron 桌面应用)。教程会特别考虑 Electron 环境下的适配问题(例如 macOS 中文路径或路由错误)。“奶妈级”带你从零开始实现支付功能(包括一次性支付和添加高级会员订阅) 教程目标 * 在 LibreChat 中添加支付页面,支持用户通过信用卡付款。 * 实现 Stripe 的一次性支付功能。 * (可选)扩展到订阅功能,管理高级会员状态。 * 解决 Electron 环境下的常见问题(如路由和路径解析)。 * 生成可公开推送的 Markdown 教程,方便社区参考。 前提条件 在开始之前,请确保你已准备好以下内容:

By Ne0inhk
超棒的雅思资源!

超棒的雅思资源!

雅思真题材料地址: https://github.com/zeeklog/IETLS 感谢所有人。材料来自:@shah0150 & @kbtxwer * 超棒的雅思资源 * 雅思简介 * 听力 * 阅读 * 写作 * 口语 * 词汇 * 其他 * YouTube 频道 * [播客] (#podcasts) 雅思简介 * 什么是雅思 - 了解什么是雅思 听力 * 高级听力 * 雅思官方网站 * 考试英语 * 英国广播公司节目 * 乔治梅森大学口音学习网站 - 学习不同的口音 * 英国广播公司播客 * 英国文化协会听力练习 阅读 * 雅思提升阅读 写作 * 雅思提升写作 * 雅思从 6 分到 9 分 * 迷你雅思 口语 * Verbling 提供在线英语家教服务

By Ne0inhk