1. 谷歌推出个人健康大语言模型 PH-LLM
在健康领域,大多数大语言模型(LLM)研究都集中在临床任务上。然而,移动和可穿戴设备却很少被整合到此类任务中,它们为个人健康监测提供了丰富的纵向数据。
来自谷歌的研究团队提出了个人健康大语言模型(PH-LLM),该模型由 Gemini 微调而来,用于理解和推理数值时间序列个人健康数据。他们创建并策划了三个数据集,分别测试:1)从睡眠模式、身体活动和生理反应中生成个性化见解和建议;2)专家领域知识;3)预测自我报告的睡眠结果。对于第一项任务,他们与领域专家合作设计了 857 个案例研究,以评估睡眠和健身方面的真实场景。通过对特定领域的评分标准进行综合评估,他们发现 Gemini Ultra 1.0 和 PH-LLM 在健身方面与专家的表现没有统计学差异,虽然专家在睡眠方面仍然更胜一筹,但对 PH-LLM 进行微调后,在使用相关领域知识和个性化信息进行睡眠洞察方面有了显著改善。他们通过睡眠医学和健身考试的多项选择来评估 PH-LLM 的领域知识。PH-LLM 在睡眠方面的得分率为 79%,在健身方面的得分率为 88%,超过了人类专家样本的平均得分。最后,他们训练 PH-LLM 从可穿戴数据的文本和多模态编码表征中预测自我报告的睡眠质量结果,并证明多模态编码是匹配专业判别模型性能的必要条件。
虽然在对安全至关重要的个人健康领域还需要进一步的开发和评估,但这些结果证明了 Gemini 模型的广泛知识和能力,以及将生理数据情景化用于个人健康应用的好处,就像 PH-LLM 所做的那样。
论文链接: https://arxiv.org/abs/2406.06474
2. 混合智能体 MoA:利用多个 LLM 的集体优势
大语言模型(LLM)的最新进展展示了其在自然语言理解和生成任务中的强大能力。随着 LLM 数量的不断增加,如何利用多个 LLM 的集体专长是一个令人兴奋的开放性方向。
为了实现这一目标,Together AI 研究团队提出了一种新方法,通过混合智能体(MoA)方法利用多个 LLM 的集体优势。他们构建了一个分层的 MoA 架构,其中每一层都包含多个 LLM 智能体。每个智能体在生成响应时,都会将上一层智能体的所有输出作为辅助信息。
MoA 模型在 AlpacaEval 2.0、MT-Bench 和 FLASK 上达到了 SOTA,超过了 GPT-4 Omni。例如,他们仅使用开源 LLM 的 MoA 在 AlpacaEval 2.0 中遥遥领先,得分率达到 65.1%,而 GPT-4 Omni 为 57.5%。
论文链接: https://arxiv.org/abs/2406.04692 GitHub 链接: https://github.com/togethercomputer/moa
3. WildBench:通过真实用户的复杂任务基准测试大语言模型
艾伦人工智能研究所推出了 WildBench,一种用于基准测试大语言模型(LLMs)的自动化评估框架,专门针对现实世界中的复杂用户查询。WildBench 从超过一百万条人机对话日志中精心挑选了 1024 个任务,用于全面测试模型性能。
为了实现自动评估,WildBench 引入了两个新指标:WB-Reward 和 WB-Score,这些指标可通过先进的 LLMs(如 GPT-4-turbo)计算得出。WildBench 采用特定任务的检查清单系统地评估模型输出,并提供结构化解释来支持评分和比较的合理性,从而实现更可靠和可解释的自动评判。
WB-Reward 通过对模型响应的细粒度成对比较,生成五种可能的结果:好很多、稍好、稍差、差很多或平局。与以往只使用单一基准模型的评估方法不同,他们选择了三个不同性能水平的基准模型,确保评估的全面性。此外,他们提出了一种简单的方法来减轻长度偏差:如果获胜响应比失败响应多出超过 K 个字符,则将'稍好/稍差'的结果转换为'平局'。
WB-Score 则独立评估模型输出的质量,使其成为一种快速且成本效益高的评估指标。WildBench 的结果显示,它与 Chatbot Arena 的人类投票 Elo 评分具有很高的相关性。在复杂任务中,WB-Reward 与顶级模型的皮尔逊相关系数达到了 0.98。此外,WB-Score 达到了 0.95,超越了 ArenaHard 的 0.91 和 AlpacaEval2.0 的 0.89(长度控制下的胜率),以及常规胜率的 0.87。
论文链接: https://arxiv.org/abs/2406.04770
4. Meta 和香港科技大学推出 CRAG,弥补现有 RAG 数据差距
基于检索增强生成(RAG)的解决方案最近被视为缓解大语言模型(LLM)知识不足问题的有力方案。然而,现有的 RAG 数据集未能充分代表真实世界问答(QA)任务的多样性和动态性。为弥补这一差距,Meta 和香港科技大学提出了 Comprehensive RAG Benchmark(CRAG),这是一个包含 4409 个问答对的事实问答基准测试,并提供模拟网络和知识图谱(KG)搜索的模拟 API。


