你的模型是否在我的数据集上训练过?模型感知的数据选择 | 高效扩展LLM的上下文窗口...
你的模型是否在我的数据集上训练过?模型感知的数据选择 | 高效扩展LLM的上下文窗口...
原创 一只小鸭子,咿呀 2024年06月11日 22:24 广东
前言:论文可以让你更快地了解最新研究进展,掌握最新的技术和理论。这对于自身的科研能力和竞争力非常重要,尤其是在快速发展的学科领域,下面小编带你来看大模型最近的研究成果。
1. LLM Dataset Infer
ence:你的模型是否在我的数据集上训练过?
标题:LLM Dataset Inference: Did you train on my dataset?
机构:多伦多大学、卡内基梅隆大学、Vector Institute
相关领域:模型评估、数据集构建
作者:Pratyush Maini, Hengrui Jia, Nicolas Papernot
分析:本文探讨了大型语言模型(LLMs)在实际应用中因未经授权使用互联网数据进行训练而引发的版权问题。文章指出,现有的成员推理攻击(MIAs)在判断文本序列是否属于模型训练数据时,由于非成员数据(未用于训练的文本序列)与成员数据(用于训练的文本序列)分布不同,导致推理结果存在偏差。尽管MIAs在某些情况下看似成功,但当面对来自同一分布的数据时,其表现并不优于随机猜测。为此,本文提出了一种新的数据集推理方法,能够准确识别用于训练LLMs的数据集,这种方法在现代版权环境中更为适用,尤其是在作者声称LLM训练使用了他们的多份文档(如书籍)而非单一特定段落时。
地址:https://arxiv.org/pdf/2406.06443
2. MATES:基于数据影响模型的模型感知数据选择以提高预训练效率
标题:MATES: Model-Aware Data Selection for Efficient Pretraining with Data Influence Models
机构:卡内基梅隆大学
相关领域:预训练、数据选择
作者:Zichun Yu, Spandan Das, Chenyan Xiong
分析:本文介绍了模型感知数据选择方法MATES,该方法通过数据影响模型持续适应预训练模型在预训练过程中的数据偏好变化,从而选择最有效的数据进行预训练。具体而言,通过微调一个小型的数据影响模型来近似预训练模型的数据偏好信号,并据此选择下一阶段预训练所需的数据。实验结果表明,MATES在多种下游任务的零样本和少样本设置中显著优于随机数据选择,且相比依赖大型参考模型的数据选择方法,MATES能够减少一半的计算量并达到相同的性能。
地址:https://arxiv.org/pdf/2406.06046
代码:https://github.com/cxcscmu/MATES
3. Flow of Reasoning:利用发散思维高效训练LLM策略
标题:Flow of Reasoning: Efficient Training of LLM Policy with Divergent Thinking
机构:加利福尼亚大学、艾伦AI研究所
相关领域:指令微调、奖励模型、模型评估
作者:Fangxu Yu, Lai Jiang, Haoqiang Kang
分析:这篇论文提出了一种名为‘推理流’(Flow of Reasoning,FoR)的新型训练方法,旨在通过发散思维提高大型语言模型(LLMs)在复杂推理问题上的多样性和质量。传统方法如监督微调或强化学习(如PPO)在追求高质量解的同时,往往忽视了解决方案的多样性。FoR通过将多步推理建模为马尔可夫过程,并采用GFlowNet方法训练LLM策略,使其能够以与非标准化奖励成比例的概率采样多种推理路径。实验结果表明,即使在有限的训练数据(如15个示例)下,FoR也能发现高质量且多样化的解决方案,显著优于现有技术。
地址:https://arxiv.org/pdf/2406.05673
代码:https://github.com/Yu-Fangxu/FoR
4. Recurrent Context Compression:高效扩展LLM的上下文窗口
标题:Recurrent Context Compression: Efficiently Expanding the Context Window of LLM
机构:中国科学院大学、武汉AI研究院
相关领域:模型结构改进、模型评估
作者:Chensen Huang, Guibo Zhu, Xuepeng Wang
分析:本文提出了一种名为循环上下文压缩(RCC)的方法,旨在在有限的存储空间内高效扩展基于Transformer的大型语言模型(LLMs)的上下文窗口长度,以提高其理解能力。研究了在下游任务中,当指令和上下文都被压缩时模型响应不佳的问题,并提出了一种指令重建方法来缓解这一问题。实验验证了该方法在多个任务上的有效性,包括文本重建任务中达到32倍的压缩率,BLEU4分数接近0.95,以及在序列长度为1M的密码检索任务中接近100%的准确率。此外,该方法在长文本问答任务中与非压缩方法相比表现出了竞争力,同时在长文本推理任务中显著节省了存储资源。
地址:https://arxiv.org/pdf/2406.06110
代码:https://github.com/WUHU-G/RCC_Transformer
5. Self-Tuning:指导LLMs通过自我教学有效获取新知识
标题:Self-Tuning: Instructing LLMs to Effectively Acquire New Knowledge through Self-Teaching
机构:香港中文大学、腾讯AI实验室
相关领域:指令微调、数据集构建、模型评估
作者:Xiaoying Zhang, Baolin Peng, Ye Tian
分析:这篇论文主要探讨了大型语言模型(LLMs)如何通过自我教学(Self-Teaching)策略来有效获取新知识。由于LLMs通常只进行一次性训练,而世界信息不断更新,这导致它们难以提供最新的信息。为了解决这一问题,论文提出了一种名为Self-Tuning的学习框架,该框架通过在文档中加入一系列自我监督的知识密集型任务,重点关注记忆、理解和自我反思三个方面,以提高LLMs的知识获取能力。此外,论文还引入了三个Wiki-Newpages-2023-QA数据集,用于深入分析LLMs在记忆、提取和推理方面的知识获取能力。实验结果显示,Self-Tuning在所有知识获取任务中表现出色,并能有效保留先前的知识。
地址:https://arxiv.org/pdf/2406.06326
6. Training Through Failure:并行机器学习训练中数据一致性的影响
标题:Training Through Failure: Effects of Data Consistency in Parallel Machine Learning Training
机构:斯坦福大学、Google
相关领域:模型评估、数据集构建
作者:Ray Cao, Sherry Luo, Steve Gan
分析:本研究探讨了在并行机器学习训练中,当发生故障时放松数据一致性的影响,并比较了不同参数服务器配置下的故障恢复策略。研究包括传统的检查点恢复、链式复制(确保备份服务器在故障时接管)以及一种新颖的无状态参数服务器方法。在无状态方法中,即使参数服务器宕机,工作者仍继续生成梯度更新,并在服务器恢复后应用这些更新。实验结果表明,无状态参数服务器方法在面对故障时仍能继续训练至收敛,并且提高了10%的准确性,尽管使用了陈旧的权重和梯度。链式复制和检查点技术虽然也能收敛,但由于从旧检查点重启,准确性有所下降。这些结果表明,允许工作者在服务器宕机期间继续生成更新并在之后应用,能有效提高硬件利用率。
地址:https://arxiv.org/pdf/2406.05546
7. 基于大规模预训练先验的领域泛化指导
标题:Domain Generalization Guided by Large-Scale Pre-Trained Priors
机构:字节跳动、北京航空航天大学
相关领域:预训练、指令微调
作者:Zongbin Wang, Bin Pan, Shiyu Shen
分析:本文提出了一种新的领域泛化(DG)方法,名为Fine-Tune with Large-scale pre-trained Priors(FT-LP),旨在通过在微调过程中持续参考预训练模型,增强模型的泛化能力。传统的DG模型仅在初始化时使用预训练模型,而FT-LP则将预训练模型作为先验融入微调过程,确保模型在每个优化步骤中都能参考其预训练版本。理论分析和实验结果均表明,这种方法能有效提升模型在未知领域的泛化性能。
地址:https://arxiv.org/pdf/2406.05628
8. Video-Language Understanding:从模型架构、模型训练和数据视角
标题:Video-Language Understanding: A Survey from Model Architecture, Model Training, and Data Perspectives
机构:南洋理工大学、新加坡国立大学
相关领域:多模态、模型结构改进、预训练、数据集构建
作者:Thong Nguyen, Yi Bin, Junbin Xiao
分析:本文综述了视频-语言理解系统的关键任务及其面临的挑战。文章从模型架构、模型训练和数据三个角度总结了相关方法,并进行了性能比较。此外,还探讨了未来研究的有前景的方向。主要解决的问题是如何构建能够像人类一样通过视觉和语言理解环境的系统,以及如何克服在视频-语言对中模拟语言媒介和视觉环境时的时间动态性挑战。
地址:https://arxiv.org/pdf/2406.05615
9. Online DPO:基于快慢追逐的在线直接偏好优化
标题:Online DPO: Online Direct Preference Optimization with Fast-Slow Chasing
机构:清华大学
相关领域:指令微调、模型评估
作者:Biqing Qi, Pengfei Li, Fangyuan Li
分析:本文提出了一种新的在线直接偏好优化方法,称为在线快慢追逐DPO(OFS-DPO),旨在通过模拟模型间的快慢追逐竞争来加速大语言模型与人类价值观的对齐。该方法通过引入两个使用低秩自适应(LoRA)的相同模块,并以不同的优化速度进行训练,来模拟物种进化中的种内竞争。此外,还提出了一种新的正则化项来指导学习过程。为了解决跨域场景下的灾难性遗忘问题,作者进一步扩展了OFS-DPO,提出了跨域在线快慢追逐DPO(COFS-DPO),该方法利用不同任务域的快速模块参数的线性组合,充分使用历史信息以实现持续的价值对齐。实验结果表明,OFS-DPO在同域对齐中优于DPO,而COFS-DPO在跨域持续学习场景中表现出色。
地址:https://arxiv.org/pdf/2406.05534
10. Write Summary Step-by-Step:逐步总结任务的初步研究
标题:Write Summary Step-by-Step: A Pilot Study of Stepwise Summarization
机构:北京大学、圣母大学、电子科技大学
相关领域:模型结构改进、模型评估、数据集构建
作者:Xiuying Chen, Shen Gao, Mingzhe Li
分析:本文提出了一种新的逐步总结任务,旨在每次有新文档提出时生成一个附加的总结,该总结不仅要概括新内容,还要与之前的总结保持连贯,形成一个最新的完整总结。为此,研究者设计了一种名为Stepwise Summary Generator (SSG)的对抗学习模型。SSG首先在先前总结的指导下处理新文档,获取精炼的文档表示,然后结合先前总结和新文档生成新的总结。最后,使用基于卷积的判别器来判断新总结是否与先前的总结连贯。实验扩展了传统的两步更新总结设置,并基于公共故事生成数据集重新提出了一个大规模的逐步总结数据集。实验结果显示,SSG在自动评估和人工评估方面均达到了最先进的性能。
地址:https://arxiv.org/pdf/2406.05361
11. PowerInfer-2:智能手机上的快速大模型推理
标题:PowerInfer-2: Fast Large Language Model Inference on a Smartphone
相关领域:模型结构改进、模型蒸馏
作者:Zhenliang Xue, Yixin Song, Zeyu Mi
分析:这篇论文介绍了PowerInfer-2框架,该框架专为智能手机上的大型语言模型(LLMs)高速推理设计,特别适用于模型大小超过设备内存容量的情况。PowerInfer-2通过将传统矩阵计算分解为细粒度神经元集群计算,利用智能手机的异构计算、内存和I/O资源。它包含一个多形态神经元引擎,能适应LLM推理不同阶段的计算策略,并引入了分段神经元缓存和细粒度神经元集群级流水线,有效减少和隐藏了I/O操作的开销。实验表明,PowerInfer-2能在两款智能手机上支持多种LLM模型,相比现有框架速度提升高达29.2倍。
地址:https://arxiv.org/pdf/2406.06282
12. 面向大模型终身学习:一项综述
标题:Towards Lifelong Learning of Large Language Models: A Survey
机构:华南理工大学
相关领域:预训练、指令微调
作者:Junhao Zheng, Shengjie Qiu, Chengming Shi
分析:这篇论文探讨了大型语言模型(LLMs)在终身学习方面的进展,旨在解决模型适应不断变化的数据、任务和用户偏好的能力。传统的静态数据集训练方法已不足以应对现实世界信息的动态性。论文将终身学习策略分为内部知识和外部知识两大类,前者包括持续预训练和持续微调,后者涉及基于检索和工具的终身学习方法。论文还介绍了12种终身学习场景,并分析了各种技术在不同场景中的应用,强调了模型扩展和数据选择等新兴技术的重要性。
地址:https://arxiv.org/pdf/2406.06391
13. iMotion-LLM:运动预测指令微调
标题:iMotion-LLM: Motion Prediction Instruction Tuning
相关领域:多模态、指令微调、数据集构建
作者:Abdulwahab Felemban, Eslam Mohamed Bakr, Xiaoqian Shen
分析:本文介绍了iMotion-LLM,一种多模态大型语言模型,专门用于指导交互式多代理场景中的轨迹预测。与传统运动预测方法不同,iMotion-LLM利用文本指令作为关键输入,生成与上下文相关的轨迹。通过在Waymo开放数据集中的真实世界驾驶场景中丰富文本运动指令,创建了InstructWaymo数据集。利用此数据集,iMotion-LLM整合了一个预训练的LLM,并通过LoRA进行了微调,将场景特征转换为LLM输入空间。iMotion-LLM在生成与指令一致的可行轨迹方面具有显著优势,并在面对不可行方向时能够拒绝指令,从而增强安全性。这些发现为自主导航系统解释和预测多代理环境的动态性奠定了基础,为该领域的未来发展铺平了道路。
地址:https://arxiv.org/pdf/2406.06211
14. GrowOVER: 大模型如何适应不断增长的现实世界知识?
标题:GrowOVER: How Can LLMs Adapt to Growing Real-World Knowledge?
机构:首尔国立大学
相关领域:数据集构建、模型评估、预训练
作者:Dayoon Ko, Jinyoung Kim, Hahyeon Choi
分析:这篇论文探讨了大语言模型如何适应不断变化的现实世界知识。随着知识的快速演进,现有的知识库可能很快过时,这要求模型能够持续更新以保持信息的准确性和相关性。为此,论文提出了GrowOVER-QA和GrowOVER-Dialogue两个动态的开放域问答和对话基准,它们通过持续的更新周期来跟上知识的发展。研究指出,检索增强的语言模型(RaLMs)在处理未训练或最近更新的知识时存在困难。因此,论文引入了一种新的检索交互语言模型框架,其中语言模型评估并反思其答案,以进行进一步的重新检索。实验结果表明,这种无需额外训练的框架在性能上显著优于现有方法,甚至超过了持续训练的语言模型。
地址:https://arxiv.org/pdf/2406.05606
15. Vript:一段视频胜过千言万语
标题:Vript: A Video Is Worth Thousands of Words
机构:上海交通大学、北京航空航天大学
相关领域:多模态、数据集构建、模型评估
作者:Dongjie Yang, Suyuan Huang, Chengqiang Lu
分析:这篇论文介绍了Vript,一个精心标注的视频文本数据集,包含12K高清视频和超过420K的详细、密集、类似剧本的描述。每个视频片段的描述约为145字,远超现有数据集。Vript不仅描述视频内容,还详细记录了摄像机操作,如镜头类型和运动。通过使用Vript,研究者开发了Vriptor模型,该模型在视频描述生成方面表现出色,能生成详细的视频描述,并引入了Vript-Hard基准,用于评估视频理解模型在更复杂任务上的表现。
地址:https://arxiv.org/pdf/2406.06040
代码:https://github.com/mutonix/Vript
16. Transformer模型推理能力有多远?局部性障碍与归纳性草稿板
标题:How Far Can Transformers Reason? The Locality Barrier and Inductive Scratchpad
机构:Apple、瑞士洛桑联邦理工学院
相关领域:模型评估、模型结构改进
作者:Emmanuel Abbe, Samy Bengio, Aryo Lotfi
分析:本文探讨了Transformer模型从零开始学习新目标的能力,特别是能否通过组合已有的三段论来预测新的三段论。文章提出了'分布局部性'的概念,用以衡量常规Transformer模型在弱学习上是否能有效实现,其中局部性反映了除令牌直方图外,最少需要多少额外令牌才能与目标非平凡相关。实验和理论分析表明,具有高局部性的分布难以被高效学习。文章还探讨了草稿板(scratchpad)在打破局部性障碍和提升分布外泛化能力方面的作用。
地址:https://arxiv.org/pdf/2406.06467
17. 创意已离开对话:去偏语言模型的代价
标题:Creativity Has Left the Chat: The Price of Debiasing Language Models
机构:卡内基梅隆大学
相关领域:RLHF、模型评估
作者:Behnam Mohammadi
分析:这篇论文探讨了大型语言模型(LLMs)在采用如人类反馈强化学习(RLHF)等对齐技术后,对创造力的影响。研究通过三个实验集中在Llama-2系列模型上,发现对齐模型在令牌预测中表现出较低的熵值,嵌入空间中形成不同的聚类,并倾向于“吸引子状态”,表明输出多样性有限。这一发现对依赖LLMs进行创意任务如文案写作、广告创作和客户角色生成的市场营销人员具有重要意义。论文强调了在选择模型时需谨慎考虑一致性与创造性之间的权衡,并讨论了基础模型中利用创意潜力的提示工程的重要性。
地址:https://arxiv.org/pdf/2406.05587
18. 用于蛋白质理解的大模型微调数据集与基准
标题:A Fine-tuning Dataset and Benchmark for Large Language Models for Protein Understanding
机构:剑桥大学、上海交通大学、上海AI实验室
相关领域:预训练、指令微调、数据集构建、模型评估
作者:Yiqing Shen, Zan Chen, Michail Mamalakis
分析:本文介绍了ProteinLMDataset,一个专为大型语言模型(LLMs)自监督预训练和监督微调(SFT)设计的数据集,旨在提高LLMs对蛋白质序列的理解能力。该数据集包含17.46亿预训练tokens和893,000条SFT指令。此外,还推出了ProteinLMBench,首个包含944个手动验证的多项选择题的基准数据集,用于评估LLMs在蛋白质理解方面的能力。通过在ProteinLMDataset上预训练和微调的InternLM2-7B模型,在ProteinLMBench上超越了GPT-4,达到了最高准确率。
地址:https://arxiv.org/pdf/2406.05540
代码:https://huggingface.co/datasets/tsynbio/ProteinLMBench
19. The Factorization Curse:你所预测的哪些令牌导致了逆转诅咒及其更多问题
标题:The Factorization Curse: Which Tokens You Predict Underlie the Reversal Curse and More
机构:FAIR、麻省理工学院
相关领域:模型评估、预训练、指令微调
作者:Ouail Kitouni, Niklas Nolte, Diane Bouchacourt
分析:本文探讨了当前最佳语言模型在幻觉问题上的挑战,特别是事实性错误的生成,这阻碍了它们在训练期间可靠地检索信息的能力。文章将逆转诅咒重新定义为分解诅咒,即模型在不同分解下无法学习相同的联合分布。通过一系列控制实验,包括新引入的WikiReversal设置,模拟了知识密集型微调任务,研究发现分解诅咒是流行大型语言模型中使用的下一个令牌预测目标的固有缺陷。此外,研究表明,可靠的信息检索不能仅通过模型规模的增加、令牌的反转或简单的双向注意力训练来解决。因此,针对特定数据的微调方法在下游任务上必然会产生混合结果,除非模型已经见过正确的令牌序列。研究结果表明,分解无关目标可以显著减轻逆转诅咒,并暗示了改进的知识存储和规划能力。
地址:https://arxiv.org/pdf/2406.05183
20. ShiftAddLLM:通过后训练乘法无关重参数化加速预训练LLMs
标题:ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization
机构:Google、乔治亚理工学院、Google DeepMind
相关领域:模型结构改进、模型蒸馏
作者:Haoran You, Yipin Guo, Yichao Fu
分析:这篇论文主要探讨了如何通过后训练的shift-and-add重参数化方法来加速预训练的大型语言模型(LLMs),以解决在资源受限设备上部署时面临的高内存需求和延迟瓶颈问题。论文提出了一种新的方法,通过将权重矩阵量化为二进制矩阵并配以组间缩放因子,将相关的乘法操作重参数化为激活与缩放因子之间的移位以及根据二进制矩阵进行的查询和加法操作。此外,论文还提出了一种多目标优化方法来最小化权重和输出激活的重参数化误差,并开发了一种自动位分配策略来进一步减少内存使用和延迟。实验结果表明,这种方法在保持或降低延迟的同时,显著提高了困惑度,并减少了超过80%的内存和能源消耗。
地址:https://arxiv.org/pdf/2406.05981
代码:https://github.com/GATECH-EIC/ShiftAddLLM
21. Tx-LLM: 用于治疗学的大模型
标题:Tx-LLM: A Large Language Model for Therapeutics
机构:谷歌研究院、Google DeepMind
相关领域:预训练、指令微调、模型评估、数据集构建
作者:Juan Manuel Zambrano Chaves, Eric Wang, Tao Tu
分析:本文介绍了Tx-LLM,一个从PaLM-2微调而来的大型语言模型,专门用于加速治疗学领域的研究和开发。Tx-LLM通过使用709个数据集训练,涵盖了药物发现管道的66个不同任务,能够处理包括小分子、蛋白质、核酸、细胞系和疾病在内的多种化学或生物实体,并结合自由文本进行预测。该模型在43项任务上达到或超过了当前最先进水平,在22项任务上表现尤为突出,特别是在结合分子SMILES表示与文本的任务上。
地址:https://arxiv.org/pdf/2406.06316
22. 安全对齐不应仅限于最初几个令牌深度
标题:Safety Alignment Should Be Made More Than Just a Few Tokens Deep
机构:普林斯顿大学、Google DeepMind
相关领域:模型评估、指令微调
作者:Xiangyu Qi, Ashwinee Panda, Kaifeng Lyu
分析:本文探讨了当前大型语言模型(LLMs)安全对齐的脆弱性,指出即使是简单的攻击或良性的微调也能破解对齐模型。文章认为,许多这些漏洞与一个共同的根本问题有关:安全对齐往往采取捷径,主要在模型输出的最初几个令牌上调整生成分布,这种现象被称为浅层安全对齐。通过案例研究,本文解释了浅层安全对齐存在的原因,并提供了证据表明当前对齐的LLMs受到此问题的影响。此外,文章展示了这些发现如何帮助解释LLMs中最近发现的多种漏洞,包括对抗性后缀攻击、预填充攻击、解码参数攻击和微调攻击。最后,本文提出了加深安全对齐的策略,并设计了一种正则化微调目标,以增强对微调攻击的抵抗力。
地址:https://arxiv.org/pdf/2406.05946
23. Husky:一个统一的开源语言代理,用于多步骤推理
标题:Husky: A Unified, Open-Source Language Agent for Multi-Step Reasoning
机构:华盛顿大学、Meta AI、艾伦AI研究所
相关领域:模型评估、数据集构建、模型结构改进
作者:Joongwon Kim, Bhargavi Paranjape, Tushar Khot
分析:这篇论文介绍了Husky,一个统一的开源语言代理,旨在通过学习统一的行动空间来解决涉及数值、表格和基于知识的复杂任务。Husky通过迭代两个阶段来执行任务:生成下一步行动和执行该行动,使用专家模型更新当前解决方案状态。论文还识别了一个全面的行动本体,用于解决复杂任务,并精心策划了高质量数据来训练执行这些行动的专家模型。实验结果显示,Husky在14个评估数据集上优于先前的语言代理。此外,论文还引入了HuskyQA,一个新的评估集,重点测试语言代理在混合工具推理中的能力,特别是检索缺失知识和执行数值推理。
地址:https://arxiv.org/pdf/2406.06469
代码:https://github.com/agent-husky/Husky-v1
24. Synth-SBDH:一个用于临床文本的社会和行为健康决定因素的合成数据集
标题:Synth-SBDH: A Synthetic Dataset of Social and Behavioral Determinants of Health for Clinical Text
机构:FAIR、马萨诸塞洛厄尔大学
相关领域:数据集构建、模型评估、模型蒸馏
作者:Avijit Mitra, Emily Druhl, Raelene Goodwin
分析:本文介绍了Synth-SBDH,一个新颖的合成数据集,用于从临床文本中自动提取社会和行为健康决定因素(SBDH)信息。该数据集详细标注了15个SBDH类别的状况、时间信息和理由,解决了现有SBDH数据集在可用性和覆盖范围上的限制。通过在两个不同医院设置的真实世界临床数据集上进行的三项任务,展示了Synth-SBDH的多功能性、可泛化性和提炼能力。模型在Synth-SBDH上训练后,性能显著提升,特别是在罕见SBDH类别和资源受限情况下。人类评估显示,与大型语言模型(LLM)的匹配度达到71.06%,并指出了未来改进的方向。
地址:https://arxiv.org/pdf/2406.06056
25. LoCoCo:卷积在长上下文压缩中的应用
标题:LoCoCo: Dropping In Convolutions for Long Context Compression
机构:Meta AI、卡内基梅隆大学、德克萨斯州奥斯汀大学
相关领域:模型结构改进、模型评估
作者:Ruisi Cai, Yuandong Tian, Zhangyang Wang
分析:本文针对大型语言模型(LLMs)处理长上下文序列时的内存障碍,提出了一种名为LoCoCo的新方法,即通过卷积进行长上下文压缩。LoCoCo使用固定大小的键值(KV)缓存,在推理和微调阶段都能提高效率。与以往基于启发式方法选择性丢弃KV对不同,LoCoCo采用数据驱动的自适应融合技术,将之前的KV对与新进来的令牌混合,以最小化上下文信息的损失并确保精确的注意力建模。通过注入一维卷积核动态计算每个KV缓存槽的混合权重来实现令牌集成。LoCoCo设计为与现有LLM框架广泛兼容,无需架构修改即可直接集成,且调整开销最小。实验表明,LoCoCo在各种上下文长度下均保持卓越性能,并在推理和微调阶段实现了高上下文压缩率。
地址:https://arxiv.org/pdf/2406.05317
26. VALL-E 2: 神经编解码语言模型实现人类平价零样本文本到语音合成
标题:VALL-E 2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers
机构:微软
相关领域:模型结构改进、模型评估
作者:Sanyuan Chen, Shujie Liu, Long Zhou
分析:本文介绍了VALL-E 2,这是一种最新的神经编解码语言模型,首次在零样本文本到语音合成(TTS)中达到人类平价水平。VALL-E 2在原有基础上引入了两项重要改进:重复感知采样通过考虑解码历史中的令牌重复来改进原始的核采样过程,不仅稳定了解码过程,还避免了无限循环问题。分组编码建模将编解码器代码组织成组,有效缩短序列长度,加快推理速度,并解决了长序列建模的挑战。实验表明,VALL-E 2在语音的鲁棒性、自然度和说话人相似性方面超越了以往的系统。此外,即使在复杂或重复短语的句子中,VALL-E 2也能持续合成高质量的语音。
地址:https://arxiv.org/pdf/2406.05370
代码:https://aka.ms/valle2
27. 3D-MolT5:面向统一的3D分子-文本建模与3D分子标记化
标题:3D-MolT5: Towards Unified 3D Molecule-Text Modeling with 3D Molecular Tokenization
机构:微软研究院、中国人民大学、华中科技大学
相关领域:多模态、预训练、指令微调
作者:Qizhi Pei, Lijun Wu, Kaiyuan Gao
分析:这篇论文提出了3D-MolT5框架,旨在统一处理1D分子序列和3D分子结构。关键创新在于将基于3D分子指纹的精细3D子结构表示映射到专门的3D令牌词汇中,实现了分子序列、结构和文本序列的无缝结合。此外,引入了1D和3D联合预训练,以增强模型对多模态的理解,并在多个下游数据集上进行了指令微调,显示出在分子属性预测、分子描述和基于文本的分子生成任务中的优越性能。
地址:https://arxiv.org/pdf/2406.05797
28. MS-HuBERT: 缓解掩码语言建模方法中预训练与推理不匹配问题,用于学习语音表示
标题:MS-HuBERT: Mitigating Pre-training and Inference Mismatch in Masked Language Modelling methods for learning Speech Representations
机构:微软研究院
相关领域:预训练、模型结构改进
作者:Hemant Yadav, Sunayana Sitaram, Rajiv Ratn Shah
分析:这篇论文主要探讨了在语音识别领域中,自监督预训练方法HuBERT存在的预训练与推理不匹配问题,并提出了解决方案。论文通过引入Swap方法和多聚类掩码预测损失,改进了HuBERT模型,形成了MS-HuBERT。实验结果显示,MS-HuBERT在ASR Librispeech基准测试中比原始HuBERT平均提高了5%的性能。此外,论文还证明了预训练阶段获得的嵌入包含了提升ASR等基于内容任务性能的关键信息。
地址:https://arxiv.org/pdf/2406.05661
29. UMBRELA:UMbrela是Bing相关性评估器的(开源复制品)
标题:UMBRELA: UMbrela is the (Open-Source Reproduction of the) Bing RELevance Assessor
机构:微软、滑铁卢大学
相关领域:模型评估
作者:Shivani Upadhyay, Ronak Pradeep, Nandan Thakur
分析:这篇论文介绍了UMBRELA,一个开源工具包,旨在复现Thomas等人在Microsoft Bing的研究中使用大型语言模型(LLMs)进行相关性评估的结果。UMBRELA利用OpenAI的GPT-4o模型,并在原研究的基础上增加了更多细节。研究结果显示,LLM生成的相关性判断与多阶段检索系统生成的排名高度相关。该工具包设计为易于扩展,并可集成到现有的检索和评估流程中,为研究检索评估方法提供了宝贵的资源。UMBRELA将在TREC 2024 RAG跟踪中用于相关性评估,并有望成为该领域进一步创新的基础。
地址:https://arxiv.org/pdf/2406.06519
代码:https://github.com/castorini/umbrela
30. AID: 适应图像到视频扩散模型的指令引导视频预测
标题:AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction
机构:复旦大学、微软亚洲研究院
相关领域:多模态、模型结构改进、指令微调
作者:Zhen Xing, Qi Dai, Zejia Weng
分析:本文主要探讨了如何将预训练的图像到视频扩散模型适应于指令引导的视频预测任务,以提高视频帧的一致性和时间稳定性。研究团队引入了多模态大型语言模型(MLLM),并设计了双查询Transform(DQFormer)架构,以及长短期时间适配器和空间适配器,以低成本快速转移通用视频扩散模型到特定场景。实验结果表明,该方法在四个数据集上显著优于现有技术,特别是在视频预测的质量上有显著提升。
地址:https://arxiv.org/pdf/2406.06465
代码:https://chenhsing.github.io/AID
31. Diffusion-RPO:通过相对偏好优化对齐扩散模型
标题:Diffusion-RPO: Aligning Diffusion Models through Relative Preference Optimization
机构:微软、德克萨斯大学
相关领域:模型评估、多模态、奖励模型
地址:https://arxiv.org/pdf/2406.06382
代码:https://github.com/yigu1008/Diffusion-RPO
32. 语言模型能否作为基于文本的世界模拟器?
标题:Can Language Models Serve as Text-Based World Simulators?
机构:纽约大学、微软研究院、亚利桑那大学
相关领域:模型评估、数据集构建
地址:https://arxiv.org/pdf/2406.06485
33. 我能理解我所创造的吗?大模型的自我知识评估
标题:Can I understand what I create? Self-Knowledge Evaluation of Large Language Models
机构:清华大学、上海交通大学、微软亚洲研究院
相关领域:模型评估
地址:https://arxiv.org/pdf/2406.06140
34. CaLM: 对比大型与小型语言模型以验证基于事实的生成
标题:CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation
机构:南加州大学、Google、UC洛杉矶分校
相关领域:模型评估、模型蒸馏
地址:https://arxiv.org/pdf/2406.05365
35. 面向个人健康的大模型
标题:Towards a Personal Health Large Language Model
机构:Google
相关领域:指令微调、多模态、模型评估、数据集构建
地址:https://arxiv.org/pdf/2406.06474
36. 利用大模型代理将可穿戴设备数据转化为健康洞察
标题:Transforming Wearable Data into Health Insights using Large Language Model Agents
机构:华盛顿大学、Google
相关领域:模型评估、数据集构建
地址:https://arxiv.org/pdf/2406.06464
37. 在生成AI时代如何策略化人类内容创作?
标题:How to Strategize Human Content Creation in the Era of GenAI?
机构:谷歌研究院
相关领域:模型评估、数据集构建、评估指标
地址:https://arxiv.org/pdf/2406.05187
38. YouTube SFV+HDR质量数据集
标题:YouTube SFV+HDR Quality Dataset
机构:Google
地址:https://arxiv.org/pdf/2406.05305
39. PretVM:实时并发可预测高效虚拟机
标题:PretVM: Predictable, Efficient Virtual Machine for Real-Time Concurrency
机构:UC伯克利分校、慕尼黑工业大学
地址:https://arxiv.org/pdf/2406.06253
40. 大模型与表示编辑的对齐:一种控制视角
标题:Aligning Large Language Models with Representation Editing: A Control Perspective
机构:康奈尔大学、特兰托大学、佐治亚理工学院
相关领域:指令微调、模型评估
地址:https://arxiv.org/pdf/2406.05954
41. 61A-Bot:CS1中AI作业辅助快速且廉价——但它真的有帮助吗?
标题:61A-Bot: AI homework assistance in CS1 is fast and cheap -- but is it helpful?
机构:UC伯克利分校
相关领域:指令微调、模型评估
地址:https://arxiv.org/pdf/2406.05600
42. 利用音频提示大模型进行通用语音摘要
标题:Prompting Large Language Models with Audio for General-Purpose Speech Summarization
机构:麻省理工学院
相关领域:多模态、指令微调
地址:https://arxiv.org/pdf/2406.05968
43. 何时需要多重校准后处理?
标题:When is Multicalibration Post-Processing Necessary?
机构:南加州大学、Apple
相关领域:模型评估、预训练、指令微调
地址:https://arxiv.org/pdf/2406.06487
44. The BiGGen Bench:一个用于细粒度评估语言模型的原则性基准
标题:The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models
机构:康奈尔大学、华盛顿大学、麻省理工学院
相关领域:模型评估、数据集构建、评估指标
地址:https://arxiv.org/pdf/2406.05761
代码:https://github.com/prometheus-eval/prometheus-eval/tree/main/BiGGen-Bench
45. LLMs Are Not Intelligent Thinkers:引入数学主题树基准以全面评估大模型
标题:LLMs Are Not Intelligent Thinkers: Introducing Mathematical Topic Tree Benchmark for Comprehensive Evaluation of LLMs
机构:卡内基梅隆大学
相关领域:模型评估、数据集构建、评估指标
地址:https://arxiv.org/pdf/2406.05194
46. Medical Vision Generalist:统一医学影像任务于上下文中
标题:Medical Vision Generalist: Unifying Medical Imaging Tasks in Context
机构:约翰霍普金斯大学、UC圣克鲁斯分校
相关领域:多模态、模型评估、数据集构建
地址:https://arxiv.org/pdf/2406.05565
代码:https://github.com/OliverRensu/MVG
47. VTrans:基于变分信息瓶颈的Transformer压缩加速
标题:VTrans: Accelerating Transformer Compression with Variational Information Bottleneck based Pruning
机构:印度理工学院、卡内基梅隆大学
相关领域:模型压缩、模型结构改进
地址:https://arxiv.org/pdf/2406.05276
48. F-LMM: 固定大型多模态模型的视觉定位
标题:F-LMM: Grounding Frozen Large Multimodal Models
机构:香港大学、商汤研究院、南洋理工大学
相关领域:多模态、模型评估、指令微调
地址:https://arxiv.org/pdf/2406.05821
49. MSAGPT:通过MSA生成预训练进行神经提示蛋白质结构预测
标题:MSAGPT: Neural Prompting Protein Structure Prediction via MSA Generative Pre-Training
机构:清华大学
相关领域:预训练、指令微调、模型评估
地址:https://arxiv.org/pdf/2406.05347
50. 非布尔函数在未见领域的泛化中的最小度偏差研究
标题:On the Minimal Degree Bias in Generalization on the Unseen for non-Boolean Functions
机构:Apple、瑞士洛桑联邦理工学院
相关领域:模型评估、数据集构建
地址:https://arxiv.org/pdf/2406.06354
51. STARLING:基于大模型的文本强化学习代理的自监督训练
标题:STARLING: Self-supervised Training of Text-based Reinforcement Learning Agent with Large Language Models
机构:IBM研究院、乔治亚理工学院
相关领域:预训练、模型评估
地址:https://arxiv.org/pdf/2406.05872
52. Beat: 基于文本的人物检索的双向一对多嵌入对齐
标题:Beat: Bi-directional One-to-Many Embedding Alignment for Text-based Person Retrieval
机构:厦门大学、麻省理工学院
相关领域:多模态
地址:https://arxiv.org/pdf/2406.05620
53. MemeGuard:基于LLM和VLM的框架,通过模因干预推进内容审核
标题:MemeGuard: An LLM and VLM-based Framework for Advancing Content Moderation via Meme Intervention
机构:印度理工学院、Amazon
相关领域:多模态、模型评估、数据集构建
地址:https://arxiv.org/pdf/2406.05344
54. 合成训练图像的未兑现承诺:使用检索到的真实图像表现更佳
标题:The Unmet Promise of Synthetic Training Images: Using Retrieved Real Images Performs Better
机构:华盛顿大学、艾伦AI研究所
相关领域:预训练、模型评估
地址:https://arxiv.org/pdf/2406.05184
代码:https://github.com/scottgeng00/unmet-promise
55. DiffusionPID:通过部分信息分解解释扩散模型
标题:DiffusionPID: Interpreting Diffusion via Partial Information Decomposition
机构:卡内基梅隆大学
相关领域:模型评估、多模态
地址:https://arxiv.org/pdf/2406.05191
56. G-Transformer:动态和时变治疗策略下的反事实结果预测
标题:G-Transformer: Counterfactual Outcome Prediction under Dynamic and Time-varying Treatment Regimes
机构:哈佛大学、麻省理工学院
相关领域:模型结构改进、模型评估
地址:https://arxiv.org/pdf/2406.05504
57. Smiles2Dock:面向基于机器学习的分子对接的开源大规模多任务数据集
标题:Smiles2Dock: an open large-scale multi-task dataset for ML-based molecular docking
机构:斯坦福大学
相关领域:数据集构建、模型评估
地址:https://arxiv.org/pdf/2406.05738
58. 最优传输实现大模型的分布式偏好对齐
标题:Distributional Preference Alignment of LLMs via Optimal Transport
机构:IBM研究院
相关领域:指令微调、奖励模型、模型评估
地址:https://arxiv.org/pdf/2406.05882
59. 直接偏好优化以抑制放射学报告生成中的先前检查幻觉
标题:Direct Preference Optimization for Suppressing Hallucinated Prior Exams in Radiology Report Generation
机构:哈佛大学、约翰霍普金斯大学
相关领域:多模态、指令微调
地址:https://arxiv.org/pdf/2406.06496
60. 利用Delta规则在序列长度上并行化线性Transformer
标题:Parallelizing Linear Transformers with the Delta Rule over Sequence Length
机构:麻省理工学院
相关领域:模型结构改进、模型评估
地址:https://arxiv.org/pdf/2406.06484
61. 公平数据集编纂的挑战分类
标题:A Taxonomy of Challenges to Curating Fair Datasets
机构:斯坦福大学、伦敦国王学院、亚利桑那州立大学
相关领域:数据集构建、模型评估
地址:https://arxiv.org/pdf/2406.06407
62. 揭秘GPT-4o的安全性:基于越狱攻击的实证研究
标题:Unveiling the Safety of GPT-4o: An Empirical Study using Jailbreak Attacks
机构:南洋理工大学、北京航空航天大学
相关领域:模型评估、多模态
地址:https://arxiv.org/pdf/2406.06302
代码:https://github.com/NY1024/Jailbreak_GPT4o
63. Lighting Every Darkness with 3DGS:快速训练和实时渲染实现HDR视角合成
标题:Lighting Every Darkness with 3DGS: Fast Training and Real-Time Rendering for HDR View Synthesis
机构:旷视科技
地址:https://arxiv.org/pdf/2406.06216
代码:https://github.com/Srameo/LE3D
64. LINGOLY:低资源及已消亡语言的奥林匹克级语言推理谜题基准
标题:LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages
机构:牛津大学、斯坦福大学
相关领域:模型评估、数据集构建
地址:https://arxiv.org/pdf/2406.06196
65. Get rich quick:精确解揭示不平衡初始化如何促进快速特征学习
标题:Get rich quick: exact solutions reveal how unbalanced initializations promote rapid feature learning
机构:伦敦大学、斯坦福大学
相关领域:模型结构改进、预训练
地址:https://arxiv.org/pdf/2406.06158
66. ThaiCoref:泰语指代消解数据集
标题:ThaiCoref: Thai Coreference Resolution Dataset
机构:Amazon
相关领域:数据集构建、模型评估
地址:https://arxiv.org/pdf/2406.06000
67. Turbo Sparse: 以最小激活参数实现LLM最佳性能
标题:Turbo Sparse: Achieving LLM SOTA Performance with Minimal Activated Parameters
机构:清华大学、上海交通大学、上海AI实验室
相关领域:模型结构改进、模型蒸馏
地址:https://arxiv.org/pdf/2406.05955
代码:https://huggingface.co/PowerInfer
68. 基于多任务自指导微调的大模型安全漏洞检测
标题:Security Vulnerability Detection with Multitask Self-Instructed Fine-Tuning of Large Language Models
机构:墨尔本大学、卡内基梅隆大学
相关领域:指令微调、模型评估
地址:https://arxiv.org/pdf/2406.05892
69. 大模型策略对齐的信息理论保证
标题:Information Theoretic Guarantees For Policy Alignment In Large Language Models
机构:IBM研究院
相关领域:奖励模型、模型评估
地址:https://arxiv.org/pdf/2406.05883
70. 文本引导的3D视觉定位综述:要素、最新进展与未来方向
标题:A Survey on Text-guided 3D Visual Grounding: Elements, Recent Advances, and Future Directions
机构:北大王选计算机研究所
相关领域:多模态
地址:https://arxiv.org/pdf/2406.05785
代码:https://github.com/liudaizong/Awesome-3D-Visual-Grounding
71. 基于预处理的接触利用规划框架在高精度插入任务中的应用
标题:A preprocessing-based planning framework for utilizing contacts in high-precision insertion tasks
机构:卡内基梅隆大学
地址:https://arxiv.org/pdf/2406.05522
72. 重新审视非自回归Transformer以实现高效图像合成
标题:Revisiting Non-Autoregressive Transformers for Efficient Image Synthesis
机构:清华大学、新加坡国立大学
相关领域:模型结构改进、模型评估
地址:https://arxiv.org/pdf/2406.05478
代码:https://github.com/LeapLabTHU/ImprovedNAT
73. CorDA:面向上下文的分解适应大模型
标题:CorDA: Context-Oriented Decomposition Adaptation of Large Language Models
机构:鹏城实验室
相关领域:预训练、指令微调
地址:https://arxiv.org/pdf/2406.05223
74. MVGamba:将3D内容生成统一为状态空间序列建模
标题:MVGamba: Unify 3D Content Generation as State Space Sequence Modeling
机构:南洋理工大学、新加坡国立大学、新加坡管理大学
相关领域:模型结构改进、多模态
地址:https://arxiv.org/pdf/2406.06367
75. CorrMAE:使用掩码自编码器预训练对应关系Transformer
标题:CorrMAE: Pre-training Correspondence Transformers with Masked Autoencoder
机构:武汉大学、南京大学
相关领域:预训练
地址:https://arxiv.org/pdf/2406.05773
76. RawBMamba:端到端双向状态空间模型用于音频深度伪造检测
标题:RawBMamba: End-to-End Bidirectional State Space Model for Audio Deepfake Detection
机构:清华大学、中国科学院自动化研究所
相关领域:模型结构改进、模型评估
地址:https://arxiv.org/pdf/2406.06086
77. Stabler Neo-Hookean模拟:投影牛顿法的绝对特征值滤波
标题:Stabler Neo-Hookean Simulation: Absolute Eigenvalue Filtering for Projected Newton
机构:英伟达、多伦多大学、哥伦比亚大学
地址:https://arxiv.org/pdf/2406.05928
78. MoPS:面向开放式自动故事生成的模块化故事前提合成
标题:MoPS: Modular Story Premise Synthesis for Open-Ended Automatic Story Generation
机构:复旦大学、上海交通大学、上海AI实验室
相关领域:预训练、指令微调、模型评估
地址:https://arxiv.org/pdf/2406.05690
代码:https://github.com/GAIR-NLP/MoPS
79. M3GIA:一种受认知启发的多语言和多模态通用智能能力基准
标题:M3GIA: A Cognition Inspired Multilingual and Multimodal General Intelligence Ability Benchmark
机构:西湖大学、浙江大学、阿里巴巴集团
相关领域:模型评估、多模态、数据集构建、评估指标
地址:https://arxiv.org/pdf/2406.05343
80. LEMMA-RCA:一个用于根因分析的大型多模态多领域数据集
标题:LEMMA-RCA: A Large Multi-modal Multi-domain Dataset for Root Cause Analysis
机构:罗格斯大学、伊利诺伊大学
相关领域:数据集构建、多模态
地址:https://arxiv.org/pdf/2406.05375
代码:https://lemma-rca.github.io/
81. 多媒体辅助的基于大模型的自动语音识别
标题:MaLa-ASR: Multimedia-Assisted LLM-Based ASR
机构:上海交通大学、阿里巴巴集团
相关领域:多模态、模型结构改进
地址:https://arxiv.org/pdf/2406.05839
82. MotionClone:无需训练的运动克隆用于可控视频生成
标题:MotionClone: Training-Free Motion Cloning for Controllable Video Generation
机构:上海交通大学、香港中文大学、上海AI实验室
相关领域:多模态、模型结构改进
地址:https://arxiv.org/pdf/2406.05338
83. mHuBERT-147:一种紧凑的多语言HuBERT模型
标题:mHuBERT-147: A Compact Multilingual HuBERT Model
相关领域:预训练、模型蒸馏、多模态
地址:https://arxiv.org/pdf/2406.06371
84. Autoregressive Model Beats Diffusion:利用Llama实现可扩展图像生成
标题:Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation
机构:香港大学、字节跳动
相关领域:模型结构改进、多模态
地址:https://arxiv.org/pdf/2406.06525
85. 统一文本到图像生成与检索
标题:Unified Text-to-Image Generation and Retrieval
机构:南洋理工大学、新加坡国立大学
相关领域:多模态、模型评估、数据集构建
地址:https://arxiv.org/pdf/2406.05814
86. 基于角色交互的多轮长上下文对话式同行评审
标题:Peer Review as A Multi-Turn and Long-Context Dialogue with Role-Based Interactions
机构:西湖大学、吉林大学、中国科学院大学
相关领域:数据集构建、模型评估、评估指标
地址:https://arxiv.org/pdf/2406.05688
代码:https://github.com/chengtan9907/ReviewMT
87. 隐藏问题表示揭示大模型内部及跨模型的非事实性
标题:Hidden Question Representations Tell Non-Factuality Within and Across Large Language Models
机构:清华大学、中国人民大学、香港科技大学
相关领域:模型评估、模型蒸馏
地址:https://arxiv.org/pdf/2406.05328
88. 深度神经网络在函数规律性和数据分布上的自适应性:近似与估计
标题:Deep Neural Networks are Adaptive to Function Regularity and Data Distribution in Approximation and Estimation
机构:香港浸会大学、佐治亚理工学院
相关领域:模型结构改进、模型评估
地址:https://arxiv.org/pdf/2406.05320
89. 大模型中的临界相变
标题:Critical Phase Transition in a Large Language Model
机构:东京大学
相关领域:模型评估、预训练
地址:https://arxiv.org/pdf/2406.05335
90. ProcessPainter:从序列数据学习绘画过程
标题:ProcessPainter: Learn Painting Process from Sequence Data
机构:浙江大学、上海交通大学、新加坡国立大学
相关领域:预训练、指令微调、多模态
地址:https://arxiv.org/pdf/2406.06062
91. MLCM: 潜在扩散模型的多步一致性蒸馏
标题:MLCM: Multistep Consistency Distillation of Latent Diffusion Model
机构:香港大学、上海交通大学
相关领域:模型蒸馏、多模态
地址:https://arxiv.org/pdf/2406.05768
92. VP-LLM: 利用大模型通过分块化实现文本驱动的3D体积补全
标题:VP-LLM: Text-Driven 3D Volume Completion with Large Language Models through Patchification
机构:香港科技大学、达特茅斯学院
相关领域:多模态、模型结构改进
地址:https://arxiv.org/pdf/2406.05543
93. 探究视觉强化学习中预训练目标的泛化能力
标题:Investigating Pre-Training Objectives for Generalization in Vision-Based Reinforcement Learning
机构:韩国科学技术院
相关领域:预训练、模型评估、数据集构建
地址:https://arxiv.org/pdf/2406.06037
代码:https://github.com/dojeon-ai/Atari-PB
94. 视觉标题修复
标题:VCR: Visual Caption Restoration
机构:滑铁卢大学、蒙特利尔大学、香港科技大学
相关领域:多模态、数据集构建
地址:https://arxiv.org/pdf/2406.06462
95. MASSW:一种用于AI辅助科学工作流程的新数据集和基准任务
标题:MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows
机构:普渡大学、密歇根大学
相关领域:数据集构建、模型评估
地址:https://arxiv.org/pdf/2406.06357
代码:https://github.com/xingjian-zhang/massw
96. MedExQA:多解释医学问答基准
标题:MedExQA: Medical Question Answering Benchmark with Multiple Explanations
机构:伦敦大学
相关领域:模型评估、数据集构建、评估指标
地址:https://arxiv.org/pdf/2406.06331
97. 2DP-2MRC:基于二维指针的机器阅读理解方法用于多模态时刻检索
标题:2DP-2MRC: 2-Dimensional Pointer-based Machine Reading Comprehension Method for Multimodal Moment Retrieval
机构:名古屋大学
相关领域:多模态、模型结构改进
地址:https://arxiv.org/pdf/2406.06201
98. QGEval:问题生成评估的基准
标题:QGEval: A Benchmark for Question Generation Evaluation
机构:西安交通大学
相关领域:模型评估、评估指标
地址:https://arxiv.org/pdf/2406.05707
99. 神经程序的数据高效学习
标题:Data-Efficient Learning with Neural Programs
机构:宾夕法尼亚大学
相关领域:模型结构改进、模型评估
地址:https://arxiv.org/pdf/2406.06246
100. 不完全多标签学习综述:近期进展与未来趋势
标题:A Survey on Incomplete Multi-label Learning: Recent Advances and Future Trends
机构:南京航空航天大学
地址:https://arxiv.org/pdf/2406.06119
101. HOLMES:用于多跳问答的大模型超关系知识图谱
标题:HOLMES: Hyper-Relational Knowledge Graphs for Multi-hop Question Answering using LLMs
机构:印度科学院
相关领域:模型蒸馏、模型评估
地址:https://arxiv.org/pdf/2406.06027
102. NarrativeBridge:利用因果时间叙事增强视频字幕生成
标题:NarrativeBridge: Enhancing Video Captioning with Causal-Temporal Narrative
相关领域:数据集构建、模型评估、多模态
地址:https://arxiv.org/pdf/2406.06499
代码:https://narrativebridge.github.io/
103. STimage-1K4M:一种用于空间转录组学的组织病理学图像-基因表达数据集
标题:STimage-1K4M: A histopathology image-gene expression dataset for spatial transcriptomics
机构:北卡罗来纳大学
相关领域:数据集构建、多模态
地址:https://arxiv.org/pdf/2406.06393
104. RepoQA: 评估长上下文代码理解
标题:RepoQA: Evaluating Long Context Code Understanding
机构:伊利诺伊大学
相关领域:模型评估、数据集构建
地址:https://arxiv.org/pdf/2406.06025
105. 大模型在文本风格转换上真的表现良好吗?
标题:Are Large Language Models Actually Good at Text Style Transfer?
机构:查尔斯大学
相关领域:模型评估、指令微调、数据集构建
地址:https://arxiv.org/pdf/2406.05885
106. MedREQAL: 通过问答测试大模型医学知识回忆能力
标题:MedREQAL: Examining Medical Knowledge Recall of Large Language Models via Question Answering
机构:慕尼黑工业大学
相关领域:模型评估、数据集构建、评估指标
地址:https://arxiv.org/pdf/2406.05845
107. SinkLoRA:增强长上下文大模型的效率与聊天能力
标题:SinkLoRA: Enhanced Efficiency and Chat Capabilities for Long-Context Large Language Models
相关领域:模型结构改进、预训练、指令微调
地址:https://arxiv.org/pdf/2406.05678
代码:https://github.com/Dexter-GT-86/SinkLoRA
108. 我们应该微调还是使用RAG?评估不同技术以适应大模型进行对话
标题:Should We Fine-Tune or RAG? Evaluating Different Techniques to Adapt LLMs for Dialogue
机构:特兰托大学
相关领域:模型评估、指令微调、数据集构建
地址:https://arxiv.org/pdf/2406.06399
109. 探究和解决大模型在涉及否定任务中的幻觉问题
标题:Investigating and Addressing Hallucinations of LLMs in Tasks Involving Negation
机构:亚利桑那州立大学
相关领域:模型评估、指令微调
地址:https://arxiv.org/pdf/2406.05494
110. W-Net:基于深度神经网络的一次性任意风格汉字生成
标题:W-Net: One-Shot Arbitrary-Style Chinese Character Generation with Deep Neural Networks
相关领域:模型结构改进、预训练
地址:https://arxiv.org/pdf/2406.06122
111. 利用LLMs实现更强大、更快、更便宜的日志解析
标题:Stronger, Faster, and Cheaper Log Parsing with LLMs
相关领域:模型结构改进、预训练、指令微调
地址:https://arxiv.org/pdf/2406.06156
112. 医疗领域零样本端到端口语问答
标题:Zero-Shot End-To-End Spoken Question Answering In Medical Domain
相关领域:模型结构改进、预训练、指令微调
地址:https://arxiv.org/pdf/2406.05876
113. 表格数据的检索与微调:情境模型的新进展
标题:Retrieval & Fine-Tuning for In-Context Tabular Models
相关领域:模型结构改进、预训练、指令微调
地址:https://arxiv.org/pdf/2406.05207
114. TabPFGen -- 表格数据生成与TabPFN
标题:TabPFGen -- Tabular Data Generation with TabPFN
相关领域:模型结构改进、预训练
地址:https://arxiv.org/pdf/2406.05216
今天的论文分享完啦,欢迎👏🏻👏🏻明天再来~