多模态大型语言模型训练指南:理解与交互文本、图像、视频及音频 | 极客日志