7 篇大模型领域重要论文汇总

七篇大模型领域的前沿论文汇总，涵盖高级人工智能助手伦理、基于文本的视觉指令微调数据集 TextSquare、物理交互驱动的 3D 物体生成 PhysDreamer、具备接地能力的多模态模型 Groma、网络领域大模型工作流程、视觉专家混合体 MoVA 以及基于扩散模型的单样本视频编辑 GenVideo。内容涉及 AI 安全、多模态理解、3D 生成及特定行业应用，为研究人员提供技术参考。

编程诗人发布于 2025/2/7更新于 2026/7/2344 浏览

大模型论文精选

1. 谷歌 274 页论文：高级人工智能助手的伦理

来自 Google DeepMind、Google Research 的研究团队及其合作者，重点探讨了高级人工智能助理带来的机遇以及伦理和社会风险。

他们将高级人工智能助理定义为具有自然语言界面的 AI 智能体（artificial agents），其功能是根据用户的期望，代表用户在一个或多个领域规划和执行一系列行动。

他们首先从技术本身入手，概述了人工智能助手、其技术基础和潜在应用范围；然后，探讨了与人工智能价值一致性、幸福感、安全性和恶意使用有关的问题，他们将进一步扩大调查范围，更详细地考虑高级人工智能助手与个人用户之间的关系，探讨操纵和说服、拟人化、信任和隐私等话题，有了这些分析之后，他们将考虑在社会范围内部署高级人工智能助手，重点关注合作、公平与获取、错误信息、经济影响、环境以及如何最好地评估高级人工智能助手；最后，他们为研究人员、开发人员、政策制定者和公共利益相关者提供了一系列建议。

分析表明，高级人工智能助手很可能会对我们的个人和集体生活产生深远影响。他们认为，要使人工智能助手有益并与人类价值观一致，就必须对用户、开发者和社会之间相互竞争的诉求和需求做出适当回应。

人工智能助手所具备的功能，如更强的智能体能力、自然语言交互能力和高度个性化，对用户特别有帮助。然而，这些特点也使人们容易受到技术的不当影响，因此需要强有力的保障措施。

此外，当人工智能助手被大规模部署时，它们之间的互动所产生的连锁效应以及它们对更广泛的机构和社会进程的整体影响问题就会凸显出来。这些动态可能需要技术和政策干预，从而促进有益的合作，实现广泛、包容和公平的成果。

最后，鉴于目前的人工智能评估主要侧重于人工智能系统的技术组成部分，因此必须投资于人工智能助手的整体社会技术评估，包括人与人工智能的互动、多智能体和社会层面的研究，从而支持该领域负责任的决策和部署。

2. TextSquare：扩大以文本为中心的视觉教学指令微调

随着多模态大语言模型（MLLMs）的发展，以文本为中心的可视化问题解答（VQA）取得了长足的进步，但开源模型仍无法与 GPT4V 和 Gemini 等领先模型相媲美，部分原因在于缺乏大量高质量的微调数据。

为此，来自字节跳动、华东师范大学和华中科技大学的研究团队提出了一种创建海量、高质量指令微调数据集 Square-10M 的新方法——TextSquare，该数据集使用闭源 MLLM 生成，数据构建过程 Square 由自问、回答、推理和评估四个步骤组成。

他们对 Square-10M 的实验得出了三个重要发现：（1）TextSquare 大大超越了之前开源的以文本为中心的 MLLM，并在 OCRBench 上树立了新的标准（62.2%）。在 10 个以文本为中心的基准测试中，它有 6 个甚至超过了 GPT4V 和 Gemini 等模型。（2）他们证明了 VQA 推理数据在为特定问题提供全面的上下文洞察力方面的关键作用。这不仅提高了准确性，还大大减少了幻觉。具体来说，TextSquare 在四个通用 VQA 和幻觉评估数据集上的平均得分率为 75.1%，超过了以前的模型。（3）值得注意的是，在扩展以文本为中心的 VQA 数据集时观察到的现象揭示了一个生动的模式：指令微调数据量的指数增长与模型性能的提高成正比，从而验证了数据集扩展的必要性和 Square-10M 的高质量。

论文链接： https://arxiv.org/abs/2404.12803

3. PhysDreamer：通过视频生成，与 3D 物体进行基于物理交互

逼真的物体交互对于创造身临其境的虚拟体验至关重要，然而如何根据新颖的交互合成逼真的 3D 物体动力学仍是一项重大挑战。

与无条件或文本条件动态生成不同，动作条件动态生成需要感知物体的物理材料属性，并根据这些属性（如物体刚度）进行 3D 运动预测。然而，由于缺乏真实材料数据，估计物理材料属性是一个未决问题，因为测量真实物体的这些属性非常困难。

来自麻省理工学院、斯坦福大学、哥伦比亚大学和康奈尔大学的研究团队提出了一种基于物理学的方法 PhysDreamer，它利用视频生成模型学习到的物体动力学先验，赋予静态 3D 物体以交互式动态效果。通过提炼这些先验，PhysDreamer 能够合成逼真的物体对外力或智能体操作等新型交互的反应。

他们在各种弹性物体示例中演示了这种方法，并通过用户研究评估了合成交互的逼真度。PhysDreamer 通过使静态 3D 物体以物理上可信的方式对交互刺激做出动态响应，向更吸引人、更逼真的虚拟体验迈出了一步。

7 篇大模型领域重要论文汇总

1. 谷歌 274 页论文：高级人工智能助手的伦理

2. TextSquare：扩大以文本为中心的视觉教学指令微调

3. PhysDreamer：通过视频生成，与 3D 物体进行基于物理交互

更多推荐文章

相关免费在线工具

4. Groma：具有接地和细粒度视觉感知能力的 MLLM

5. 清北新研究：用于网络领域的大模型：工作流程、进展与挑战

6. MOVA：让视觉专家混合体适应多模态上下文

7. GenVideo：基于 T2I 扩散模型进行单样本目标图像和形状感知视频编辑

更多推荐文章

相关免费在线工具

7 篇大模型领域重要论文汇总

1. 谷歌 274 页论文：高级人工智能助手的伦理

2. TextSquare：扩大以文本为中心的视觉教学指令微调

3. PhysDreamer：通过视频生成，与 3D 物体进行基于物理交互

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4. Groma：具有接地和细粒度视觉感知能力的 MLLM

5. 清北新研究：用于网络领域的大模型：工作流程、进展与挑战

6. MOVA：让视觉专家混合体适应多模态上下文

7. GenVideo：基于 T2I 扩散模型进行单样本目标图像和形状感知视频编辑

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具