人工智能多模态模型开发与应用:文本图像语音融合实践 | 极客日志