大模型前沿论文精选：AIOS、FlashFace、SDXS 等 9 篇

1. 罗格斯团队提出 AIOS：将大型语言模型嵌入操作系统

基于大型语言模型（LLM）的智能体（agent）的集成和部署一直充满挑战，影响其效率和功效，问题包括：LLM 上智能体请求的次优调度和资源分配、智能体与 LLM 交互过程中维持上下文的困难，以及集成具有不同能力和专长的异构智能体所固有的复杂性。此外，智能体数量和复杂性的快速增长进一步加剧了这些问题，往往会导致瓶颈和资源利用率不达标。

受这些挑战的启发，罗格斯大学的研究团队推出了一种将大型语言模型嵌入操作系统（OS）的 LLM 智能体操作系统 AIOS。具体来说，AIOS 的设计目的是优化资源分配、促进智能体之间的上下文切换、实现智能体的并发执行、为智能体提供工具服务以及维护智能体的访问控制。

该团队介绍了这种操作系统的架构，概述了它要解决的核心挑战，并提供了 AIOS 的基本设计和实现方法。

他们对多个智能体并发执行的实验证明了 AIOS 模块的可靠性和效率。可以通过这些实验，提高 LLM 智能体的性能和效率，同时为将来更好地开发和部署 AIOS 生态系统开辟道路。

论文链接： https://arxiv.org/abs/2403.16971 GitHub 地址： https://github.com/agiresearch/AIOS

2. 港大、阿里新研究：只需一张图，轻松即时定制个性化照片

来自香港大学、阿里巴巴和蚂蚁集团的研究团队推出了一种实用工具 FlashFace，用户只需提供一张或几张参考人脸图像和文字提示，就能轻松地即时个性化自己的照片。

FlashFace 有别于现有的人类照片定制方法，具有更高的身份保真度和更好的指令跟随性，这得益于两个微妙的设计。

一是该技术将人脸身份编码为一系列特征图，而不是像以前的技术那样编码为一个图像 token，从而使模型能够保留参考人脸的更多细节（如疤痕、纹身和脸型）。

二是在文本到图像的生成过程中，FlashFace 引入了一种分离整合策略来平衡文本和图像引导，从而缓解了参考人脸和文本提示之间的冲突（例如，将成人个性化为'儿童'或'老人'）。

大量实验证明了 FlashFace 在各种应用中的有效性，其中包括人像个性化、语言提示下的人脸互换、将虚拟人物变成真人等。

论文链接： https://arxiv.org/abs/2403.17008 项目地址： https://jshilong.github.io/flashface-page/

3. 小米新研究：带图像条件的一步式扩散模型 SDXS

目前，扩散模型的最新进展使其处于图像生成的最前沿。然而，尽管扩散模型性能优越，也并非没有缺点；它们的特点是架构复杂、计算量大，迭代采样过程会导致明显的延迟。

为了缓解这些局限性，小米研究团队提出了一种双重方法，包括模型微型化和减少采样步骤，旨在显著降低模型延迟。该方法利用知识蒸馏来简化 U-Net 和图像解码器架构，并引入了一种利用特征匹配和分数蒸馏的一步 DM 训练技术。他们还介绍了 SDXS-512 和 SDXS-1024 两个模型，它们在单 GPU 上的推理速度分别达到约 100 FPS（比 SD v1.5 快 30 倍）和 30 FP（比 SDXL 快 60 倍）。

论文链接： https://arxiv.org/abs/2403.16627 项目地址： https://idkiro.github.io/sdxs/

4. 李博领衔新研究：压缩大型语言模型的安全性和可信度评估

压缩高能力大型语言模型（LLMs）已成为资源节约型推理的首选策略。

然而，尽管 SOTA 压缩方法在保持良性任务性能方面取得了令人瞩目的进步，但压缩在安全性和可信度方面的潜在风险却在很大程度上被忽视了。

来自德克萨斯大学、德雷克塞尔大学和麻省理工学院的研究团队及其合作者，首次使用 5 种 SOTA 压缩技术，从 8 个可信度维度对 3 种领先的 LLMs 进行了全面评估。该研究强调了压缩与可信度之间错综复杂的相互作用，揭示了一些有趣的模式。芝加哥大学副教授李博为该论文的通讯作者。

实验发现，在同时实现效率和可信度方面，量化是目前比剪枝更有效的方法。例如，4-bit 量化模型保留了原始模型的可信度，但模型剪枝会显著降低可信度，即使稀疏度为 50%。此外，在适度的比特范围内进行量化，可以出乎意料地提高某些可信度维度，如道德和公平性。相反，极端量化到非常低的比特水平（3 bit）往往会大大降低可信度。只看良性性能无法发现这种风险的增加，这反过来又要求在实践中进行全面的可信度评估。这些发现最终为同时实现 LLMs 的高实用性、高效率和可信度提出了实用建议。

大模型前沿论文精选：AIOS、FlashFace、SDXS 等 9 篇

1. 罗格斯团队提出 AIOS：将大型语言模型嵌入操作系统

2. 港大、阿里新研究：只需一张图，轻松即时定制个性化照片

3. 小米新研究：带图像条件的一步式扩散模型 SDXS

4. 李博领衔新研究：压缩大型语言模型的安全性和可信度评估

更多推荐文章

相关免费在线工具

5. 将'有界注意力'带入文生图扩散模型

6. VoiceCraft：零样本语音编辑的文本到语音技术

7. 天津大学提出'中医大模型'Qibo

8. 综述：心理健康大模型

9. 综述：长视频生成的挑战、方法与展望

更多推荐文章

相关免费在线工具

大模型前沿论文精选：AIOS、FlashFace、SDXS 等 9 篇

1. 罗格斯团队提出 AIOS：将大型语言模型嵌入操作系统

2. 港大、阿里新研究：只需一张图，轻松即时定制个性化照片

3. 小米新研究：带图像条件的一步式扩散模型 SDXS

4. 李博领衔新研究：压缩大型语言模型的安全性和可信度评估

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

5. 将'有界注意力'带入文生图扩散模型

6. VoiceCraft：零样本语音编辑的文本到语音技术

7. 天津大学提出'中医大模型'Qibo

8. 综述：心理健康大模型

9. 综述：长视频生成的挑战、方法与展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具