多模态大模型综述:视觉理解、生成与 Agent 研究进展 | 极客日志