多模态算法面经准备

Ne0inhk

16 Mar 2026 — 6 min read

小米-多模态算法工程师

1、对多模态大模型的了解

1.1 CLIP

CLIP利用对比学习（Contrastive Learning）对图像和文本进行联合训练。

1.2 BLIP

原文

BLIP的模型架构包括4个关键部分：图像编码器、文本编码器、图像-文本匹配编码器和图像-文本解码器Image Encoder ：VIT 用于提取图像特征Text Encoder：BLIP使用了BERT作为文本编码器。图像-文本匹配编码器 (Image-grounded Text Encoder): 用于判断当前的文本描述和图像是否匹配，进行图像-文本的匹配任务。
该模型的输入是图像特征（通过图像编码器提取）和文本特征（通过文本编码器提取），并通过交叉注意力机制（Cross Attention）在每个Transformer层中结合视觉特征。

图像-文本解码器 (Image-grounded Text Decoder)：用于生成图像的文本描述（caption）。该模块的架构与图像-文本匹配编码器相似，同样采用交叉注意力机制，将图像特征与文本特征结合进行生成任务。

1.3 BLIP-2

BLIP-2 的主要目标是通过cross-modal alignment（跨模态对齐）来连接图像和文本之间的差距。它包含两个主要的学习阶段：
①Representation Learning：通过 Q-Former 提取与文本相关的图像特征。
BLIP-2 使用了 Q-Former 框架，包含两个Transformer结构-Former-Image 和 Q-Former-Text。这两个模型通过交叉注意力机制相互关注，从而有效地从视觉和文本中提取相关的特征。其中 Q-Former-Image：负责处理图像信息，它的输入是一个可学习的 query 向量集，这些查询向量经过 Q-Former-Image 后，输出图像的特征。Q-Former-Text：负责处理文本信息，它的输入是文本特征，并通过与图像特征的交叉注意力机制来提取文本相关的视觉特征。Q-Former 以交叉注意力的方式关注冻结的图像编码器提取的视觉特征，确保图像的视觉信息能够被有效地映射到文本特征空间中。
通过三个损失进行优化 Image-Text Contrastive Learning (ITC) Image-grounded Text Generation (ITG) Image-Text Matching (ITM)

②Generative Learning：将 Q-Former 提取的视觉特征对齐到文本模态，利用下游的大语言模型（LLM）进行进一步的生成任务。

BLIP-2 将 Q-Former 提取的视觉特征对齐到文本模态，并通过一个线性层将其转化为文本特征，送入下游的大语言模型（LLM）。

2、文生图、图生图？

经典的文生图模型如 AttnGAN 和 StackGAN，利用多层次的生成网络逐步生成高分辨率的图像。
变分自编码器（VAE）和扩散模型
Transformer模型

3、目前的图像或视频编码器，核心思想方法是什么？

编码器负责将图像或视频输入转换为高维特征表示，这些特征会被后续的模型（如分类器、生成器、检测器等）使用卷积神经网络（CNN）：CNN 是传统图像编码器的核心，早期的模型如 VGG16 和 ResNet 利用卷积层和池化层提取图像的低级和高级特征 . ResNet VGG16Transformer Vision Transformer (ViT)

对于视频编码器3D卷积层双流网络TimeSformer

4、GPT

Decoder-only 架构之所以成为大模型主流，核心原因在于：
训练目标统一、自回归生成天然匹配、结构简单、可扩展性强，并且更适合大规模无监督预训练。
它能够将不同任务统一建模为“预测下一个 token”的问题，在规模扩大后自然涌现出指令理解、推理和多任务能力，这是 Encoder-only 和 Encoder–Decoder 架构难以做到的。

4、语义分割模型与指标

4.1 Unet

U-Net 是对称编码器 - 解码器架构，专为医学图像分割设计，核心是通过编码器提取特征、解码器恢复空间分辨率，结合跳跃连接补充分割细节。跳跃连接：解决下采样导致的空间信息丢失，是 U-Net 分割精度高的关键；损失函数：常用 Dice Loss，解决医学图像分割的类别不平衡问题。

4.2 DeepLab

DeepLab 是基于空洞卷积 + 空间金字塔池化的图像分割架构，主打解决语义分割中多尺度目标 + 细节丢失 + 计算效率问题，适合通用场景语义分割。
空洞空间金字塔池化（ASPP）：
对骨干网络输出特征图，并行使用不同速率的空洞卷积（如 1,6,12,18）+ 全局平均池化，捕捉多尺度上下文信息；所有分支输出特征图拼接后，用 1×1 卷积降维，统一特征表达。
Decoder 模块（V3 + 新增）：
上采样 ASPP 输出特征图，与骨干网络浅层特征图（含细节信息）融合；
再通过卷积细化特征，恢复空间分辨率，输出分割掩码

4.3 语义分割的损失函数

4.4 评价指标

DeepFace深度学习库+OpenCV实现——情绪分析器

目录应用场景实现组件 1. 硬件组件 2. 软件库与依赖 3. 功能模块代码详解（实现思路）导入必要的库打开摄像头并初始化变量主循环 FPS计算情绪分析及结果展示显示FPS和图像退出条件编辑完整代码效果展示自然的开心的伤心的恐惧的惊讶的效果展示自然的开心的伤心的恐惧的惊讶的应用场景应用场景比较广泛，尤其是在需要了解和分析人类情感反应的场合。： 1. 心理健康评估：在心理健康领域，可以通过长期监控和分析一个人的情绪变化来辅助医生进行诊断或治疗效果评估。 2. 用户体验研究：在产品设计、广告制作或网站开发过程中，通过观察用户在使用过程中的情绪反应，来优化产品的用户体验。 3. 互动娱乐：在游戏或虚拟现实应用中，根据玩家的情绪状态动态调整游戏难度或故事情节，以增加沉浸感和互动性。

最全java面试题及答案（208道）

本文分为十九个模块，分别是：「Java 基础、容器、多线程、反射、对象拷贝、Java Web 、异常、网络、设计模式、Spring/Spring MVC、Spring Boot/Spring Cloud、Hibernate、MyBatis、RabbitMQ、Kafka、Zookeeper、MySQL、Redis、JVM」，如下图所示：共包含 208 道面试题，本文的宗旨是为读者朋友们整理一份详实而又权威的面试清单，下面一起进入主题吧。 Java 基础 1. JDK 和 JRE 有什么区别？ * JDK：Java Development Kit 的简称，Java 开发工具包，提供了 Java

用 DeepSeek 打造你的超强代码助手

DeepSeek Engineer 是啥？简单来说，DeepSeek Engineer 是一个基于命令行的智能助手。它能帮你完成这些事： * 快速读文件内容：比如你有个配置文件，直接用命令把它加载进助手，后续所有操作都可以基于这个文件。 * 自动改文件：它不仅能提建议，还可以直接生成差异表（diff），甚至自动应用修改。 * 智能代码生成：比如你让它生成代码片段，它会按照指定格式和规则直接返回。更重要的是，这一切都是通过 DeepSeek 的强大 API 来实现的。想象一下，你有个贴身助手，不仅能听懂你的代码需求，还能直接动手帮你写！核心功能拆解我们先来看 DeepSeek Engineer 的几个核心能力，让你更好地理解它的强大之处。 1. 自动配置 DeepSeek 客户端启动这个工具时，你只需要准备一个 .env 文件，里面写上你的 API Key，比如： DEEPSEEK_API_

10分钟打造专属AI助手！ToDesk云电脑/顺网云/海马云操作DeepSeek哪家强？

文章目录 * 一、引言 * 云计算平台概览 * ToDesk云电脑：随时随地用上高性能电脑 * 二 .云电脑初体验 * DeekSeek介绍 * 版本参数与特点 * 任务类型表现 * 1、ToDesk云电脑 * 2、顺网云电脑 * 3、海马云电脑 * 三、DeekSeek本地化实操和AIGC应用 * 1. ToDesk云电脑 * 2. 海马云电脑 * 3、顺网云电脑 * 四、结语 * 总结：云电脑如何选择？一、引言 DeepSeek这些大模型让 AI 开发变得越来越有趣，但真要跑起来，可没那么简单！ * 本地配置太麻烦：显卡不够、驱动难装、环境冲突，光是折腾这些就让人心态崩了。 * 云端性能参差不齐：选错云电脑，可能卡到爆、加载慢，还容易掉线，搞得效率直线下降。 * 成本难控：有的平台按小时计费，价格一会儿一个样，

目录