微软发布 Phi-3-vision 多模态模型:42 亿参数展现小模型大潜力
微软发布了 Phi-3-vision 多模态模型,仅 42 亿参数即可在视觉推理、OCR 及图表理解任务中超越更大规模的竞品模型。作为 Phi-3 家族的一员,它结合了文本与图像处理能力,支持本地高效部署。该模型基于高质量数据训练,具备强大的逻辑推理能力,适用于企业应用、教育辅助及边缘计算场景。配合 Phi-3-mini/small/medium 等语言模型,构成了完整的轻量级 AI 解决方案,已在 Hugging Face 开源。


