微软发布 Phi-3-vision 多模态模型:42 亿参数展现小模型大潜力
前言
在大型语言模型(LLM)领域,模型参数规模与性能之间一直存在着密切的联系。近年来,虽然参数规模不断攀升,但随之而来的训练成本和推理成本也成为了制约模型发展的瓶颈。为了打破这一困境,微软推出了 Phi-3 模型家族,旨在用更小的模型实现更高的性能。近期,微软在 Build 大会上发布了 Phi-3 家族的新成员——Phi-3-vision,一个仅有 42 亿参数的多模态模型,展现了小模型的巨大潜力。
技术特点
Phi-3-vision 是 Phi-3 家族中的第一个多模态模型,结合了文本和图像视觉功能,以及对现实世界图像进行推理和从图像中提取文本并进行推理的能力。同时针对图表和图解的理解进行了优化,可用于生成数据洞见和回答问题。Phi-3-vision 是在 Phi-3-mini 的基础模型上构建的,微软继续坚持小型模型大潜力的路线:提供了强大的语言和图像视觉推理性能。
该模型采用了混合注意力机制,并针对视觉编码器进行了专门优化,使其能够高效处理高分辨率图像输入。通过高质量的合成数据和教科书级内容训练,Phi-3 系列模型在参数量大幅减少的情况下,依然保持了极高的逻辑推理能力。
性能表现
Phi-3-vision 的性能表现超乎预期,在通用视觉推理任务、OCR、表格和图表理解任务中超越了像 Claude-3 Haiku 和 Gemini 1.0 Pro V 这样的更大模型。这充分证明了 Phi-3 家族在小模型设计方面的成功,以及在多模态领域的强大实力。
具体而言,Phi-3-vision 在处理复杂图表分析时,能够准确提取关键数据点并建立关联;在 OCR 任务中,对模糊或倾斜文本的识别率显著提升。这些能力的提升主要得益于其训练数据的高质量和架构设计的优化。
核心优势
- 小模型大潜力:仅有 42 亿参数,性能却超越了更大的模型,证明了 Phi-3 模型家族在模型压缩和性能优化方面的突破。
- 多模态能力:结合了语言和视觉能力,能够进行图像理解,并进行文本推理和问答,以及图表、图解和表格理解任务。
- 高效推理:模型体积小,推理硬件资源需求低,非常适合在本地设备部署,满足企业对高效推理的需求。
- 开源生态:模型权重已开源,社区支持度高,便于开发者进行二次开发和微调。
Phi-3 模型家族
除了 Phi-3-vision,微软还发布了其他三个 Phi-3 模型,形成了完整的产品矩阵:
- Phi-3-mini:一个 38 亿参数的语言模型,提供两种上下文长度(128K 和 4K)。适合移动端和边缘计算场景。
- Phi-3-small:一个 70 亿参数的语言模型,提供两种上下文长度(128K 和 8K)。平衡了性能与资源消耗。
- Phi-3-medium:一个 140 亿参数的语言模型,提供两种上下文长度(128K 和 4K)。适用于需要更强推理能力的服务器端应用。
这些模型均已开源,在 Hugging Face 平台上可以找到所有 Phi-3 模型。
应用场景
Phi-3 模型家族具有广泛的应用场景:
- 语言理解和生成:Phi-3-mini、Phi-3-small 和 Phi-3-medium 模型可以被用于各种语言理解和生成任务,如内容创作、摘要、问答和情感分析。
- 视觉推理:Phi-3-vision 模型非常适合需要对图像和文本进行推理的任务,例如 OCR 任务,以及图表、图解和表格理解任务。
- 企业应用:由于体积小,推理成本低,Phi-3 模型家族非常适合企业进行特定任务的微调训练,满足企业对成本效益和本地部署的需求。
- 教育辅助:利用其强大的逻辑推理能力,可应用于智能辅导系统,帮助学生解答数学或科学问题。
快速开始
开发者可以通过 Hugging Face Transformers 库加载 Phi-3-vision 模型。以下是一个简单的推理示例:
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_name =
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=)
model = AutoModelForCausalLM.from_pretrained(
model_name,
device_map=,
trust_remote_code=,
torch_dtype=torch.float16
)
messages = [
{
: ,
: [
{: },
{: , : }
]
}
]


