1. 罗格斯团队提出 AIOS:将大型语言模型嵌入操作系统
基于大型语言模型(LLM)的智能体(agent)的集成和部署一直充满挑战,影响其效率和功效,问题包括:LLM 上智能体请求的次优调度和资源分配、智能体与 LLM 交互过程中维持上下文的困难,以及集成具有不同能力和专长的异构智能体所固有的复杂性。此外,智能体数量和复杂性的快速增长进一步加剧了这些问题,往往会导致瓶颈和资源利用率不达标。
受这些挑战的启发,罗格斯大学的研究团队推出了一种将大型语言模型嵌入操作系统(OS)的 LLM 智能体操作系统 AIOS。具体来说,AIOS 的设计目的是优化资源分配、促进智能体之间的上下文切换、实现智能体的并发执行、为智能体提供工具服务以及维护智能体的访问控制。
该团队介绍了这种操作系统的架构,概述了它要解决的核心挑战,并提供了 AIOS 的基本设计和实现方法。
他们对多个智能体并发执行的实验证明了 AIOS 模块的可靠性和效率。可以通过这些实验,提高 LLM 智能体的性能和效率,同时为将来更好地开发和部署 AIOS 生态系统开辟道路。
论文链接: https://arxiv.org/abs/2403.16971 GitHub 地址: https://github.com/agiresearch/AIOS
2. 港大、阿里新研究:只需一张图,轻松即时定制个性化照片
来自香港大学、阿里巴巴和蚂蚁集团的研究团队推出了一种实用工具 FlashFace,用户只需提供一张或几张参考人脸图像和文字提示,就能轻松地即时个性化自己的照片。
FlashFace 有别于现有的人类照片定制方法,具有更高的身份保真度和更好的指令跟随性,这得益于两个微妙的设计。
一是该技术将人脸身份编码为一系列特征图,而不是像以前的技术那样编码为一个图像 token,从而使模型能够保留参考人脸的更多细节(如疤痕、纹身和脸型)。
二是在文本到图像的生成过程中,FlashFace 引入了一种分离整合策略来平衡文本和图像引导,从而缓解了参考人脸和文本提示之间的冲突(例如,将成人个性化为'儿童'或'老人')。
大量实验证明了 FlashFace 在各种应用中的有效性,其中包括人像个性化、语言提示下的人脸互换、将虚拟人物变成真人等。
论文链接: https://arxiv.org/abs/2403.17008 项目地址: https://jshilong.github.io/flashface-page/
3. 小米新研究:带图像条件的一步式扩散模型 SDXS
目前,扩散模型的最新进展使其处于图像生成的最前沿。然而,尽管扩散模型性能优越,也并非没有缺点;它们的特点是架构复杂、计算量大,迭代采样过程会导致明显的延迟。
为了缓解这些局限性,小米研究团队提出了一种双重方法,包括模型微型化和减少采样步骤,旨在显著降低模型延迟。该方法利用知识蒸馏来简化 U-Net 和图像解码器架构,并引入了一种利用特征匹配和分数蒸馏的一步 DM 训练技术。他们还介绍了 SDXS-512 和 SDXS-1024 两个模型,它们在单 GPU 上的推理速度分别达到约 100 FPS(比 SD v1.5 快 30 倍)和 30 FP(比 SDXL 快 60 倍)。
论文链接: https://arxiv.org/abs/2403.16627 项目地址: https://idkiro.github.io/sdxs/
4. 李博领衔新研究:压缩大型语言模型的安全性和可信度评估
压缩高能力大型语言模型(LLMs)已成为资源节约型推理的首选策略。
然而,尽管 SOTA 压缩方法在保持良性任务性能方面取得了令人瞩目的进步,但压缩在安全性和可信度方面的潜在风险却在很大程度上被忽视了。
来自德克萨斯大学、德雷克塞尔大学和麻省理工学院的研究团队及其合作者,首次使用 5 种 SOTA 压缩技术,从 8 个可信度维度对 3 种领先的 LLMs 进行了全面评估。该研究强调了压缩与可信度之间错综复杂的相互作用,揭示了一些有趣的模式。芝加哥大学副教授李博为该论文的通讯作者。
实验发现,在同时实现效率和可信度方面,量化是目前比剪枝更有效的方法。例如,4-bit 量化模型保留了原始模型的可信度,但模型剪枝会显著降低可信度,即使稀疏度为 50%。此外,在适度的比特范围内进行量化,可以出乎意料地提高某些可信度维度,如道德和公平性。相反,极端量化到非常低的比特水平(3 bit)往往会大大降低可信度。只看良性性能无法发现这种风险的增加,这反过来又要求在实践中进行全面的可信度评估。这些发现最终为同时实现 LLMs 的高实用性、高效率和可信度提出了实用建议。


