unity

微软 Phi-3.1 Mini (3.8B)：刚刚进行了疯狂升级（击败 Llama-3 和 Qwen2）

Ne0inhk

25 Dec 2024 — 6 min read

微软 Phi-3.1 Mini (3.8B)：刚刚进行了疯狂升级（击败 Llama-3 和 Qwen2）

原创 Aitrainee 2024年07月06日 15:16湖南

Aitrainee | 公众号：AI进修生

🌟这是一个新模型，据称可以击败 Llama-3、Qwen2、Deepseek 和其他开源 LLM 等模型，同时体积更小。我将在这篇文章中对其进行测试。

前些日子，微软发布了他们的Phi系列模型。首先，他们推出了Phi-3 Mini模型，这是一个4B参数的模型，接着发布了7B和14B的小型和中型模型，然后又发布了Mini Vision模型。这些模型表现都相当出色，完全符合微软的预期。

然而，我觉得最令人印象深刻的是这个4B参数的Mini模型。尽管体积小巧，但知识储备丰富，因此我最近常用它。微软最近又对这个Mini模型进行了升级，使其性能更上一层楼。他们仍称其为Phi-3 Mini模型，但许多人称其为Phi-3.1，这个名称更加准确。

www.zeeklog.com - 微软 Phi-3.1 Mini (3.8B)：刚刚进行了疯狂升级（击败 Llama-3 和 Qwen2）

这次更新仅针对Phi-3 Mini模型，性能提升了接近15%。他们说这个更新是基于客户反馈，并包含了更多的后期训练数据，显著提高了指令遵循和结构化输出的表现，还增强了多轮对话质量、系统标签支持以及推理能力，总体上是全面的改进。

让我们看看他们分享的最新基准测试数据。在指令硬和额外硬类别中，提升不大，但在指令挑战基准测试中，分数从24.6提高到了42.3，几乎提升了一倍。在Json结构化输出方面，从11.5提升到了52.3，提升了约五倍。在XML结构化输出方面，也有显著提升，从14.4提高到了49.8，大约是四倍的提升。

此外，在GP QA和MML方面也有不错的提升，这些改进都很酷。他们还在几乎所有平台上更新了这个新模型，包括Hugging Face和Azure AI Studio，所以你可以在Azure AI Studio上免费试用，或者如果你想本地使用，可以从Llama或Hugging Face上获取这个模型。

现在，让我们来测试一下这个模型的表现。像往常一样，我会用一些问题来评估它，这些问题涵盖从简单语言任务到编程。

第一个问题是找出与高植物名称押韵的数字，答案应该是“三”或“九”。让我们发送问题并查看答案。好，它没有回答正确，因此这个问题算失败。

第二个问题是：我有两个苹果，然后买了两个，做了一个苹果派，用了两个苹果，吃掉一半苹果派后还剩多少苹果？答案应该是两个。让我们发送问题并查看答案。好，它虽然推理正确，但最后给出了错误答案，这也是失败。

第三个问题是：Sally有三个兄弟，每个兄弟有两个姐妹，Sally有几个姐妹？答案应该是一个。它再次推理正确，但给出了错误答案，因此再次失败。

第四个问题是：如果一个正六边形的短对角线是64，那么长对角线是多少？答案应该是73.9。它再次回答错误，因此也失败了。

接下来是编程问题：创建一个点击按钮会爆炸彩纸的HTML页面，可以使用CSS和JS。我们发送问题并查看答案。

好，它生成的代码运行良好，这是一个通过。

接下来的问题是：编写一个只输出函数的Python程序，该函数打印接下来的20个闰年。我们发送问题并查看答案。好，它生成的代码正常运行，这也通过了。

下一个问题是生成一个蝴蝶的SVG代码。它生成了代码，但只有一个方块，因此这是失败。

下一个问题是：编写一个现代且简洁的AI公司着陆页面HTML代码，包含动画效果。生成的代码虽然很基础，但比Gemma生成的1970年代风格页面要好，因此算通过。

最后一个问题是编写一个在终端上运行的Python版生命游戏。我认为这可能行不通，但还是试试吧。它生成了程序，但要求一些输入却无法运行，因此这也不通过。最终结果是它在三个问题上通过，两个问题非常接近。

总的来说，考虑到它的体积，这个模型表现相当不错，尤其在编程方面表现出色，这也是我喜欢它的原因。它真的很酷。

希望这篇文章对你有帮助，感谢阅读！

视频教程

https://www.youtube.com/watch?v=HribLmgpS5k

参考链接：
[1]https://ollama.com/library/phi3:3.8b
[2]https://huggingface.co/lmstudio-community/Phi-3.1-mini-4k-instruct-GGUF

黄仁勋公开发文：传统软件开发模式终结，参与AI不必非得拥有计算机博士学位

黄仁勋分享全文： AI 是当今塑造世界最强大的力量之一。它并非仅仅是一款巧妙的应用程序，也不是某个单一的模型，而是一种就像电力和互联网一样的基础设施。 AI 依赖真实的硬件、真实的能源以及真实的经济体系运行。它可以把原材料大规模地转化为智能。未来，每家公司都会使用 AI，每个国家/地区都会建设 AI。要理解 AI 为什么会以这样的方式发展，最好的方法是从第一性原理出发，看看计算领域究竟发生了哪些根本性的变化。从预先编写的软件，到实时生成的智能在计算机发展的绝大多数历史中，软件都是预先写好的。人类先描述算法，然后由计算机执行。数据必须被精心组织与设计，存储在表格中，再通过精确的查询进行检索。因此，SQL 成为不可或缺的工具，因为它让这种计算模式变得可行。而 AI 打破了这一模式。我们首次拥有了一台能够理解非结构化信息的计算机。它可以识别图像、阅读文本、理解声音，并理解其中的含义。它能够根据上下文和意图进行推理。更重要的是，它能够实时生成智能。每一次回答都是全新的。每一次回应都取决于你提供的上下文。这不再是软件从数据库中取出预先存储的指令。而是软件在实时推理

转型AI工程师实战指南

https://github.com/zeeklog/Be-an-AI-engineer-from-any-role 如果帮到你，Plz右上角Star⭐️ 来自 590 家公司的895 条真实JD的数据分析结论： AI 工程师岗位正在疯狂分层——会的人月入翻倍，不会的人正在被时代彻底甩在身后。现在不行动，你就下一个N+1 🚀 AI 工程师角色残酷真相：AI 工程师已经彻底变天！ 2026 年市场只认一种人：能把 LLM + RAG + Agent 真正上线、能赚钱、能扛住生产压力的 Full-Stack Builder。岗位类型分布（2026 真实画像） * AI-First（69.4%）：直接构建产品核心功能（RAG、智能体、自动化工作流）——做不出来就出局 * AI-Support（28.5%）：为全公司搭建 AI

个人开发者“接私活”降维打击：我是如何用 Nuct + Cursor 快速交付项目的 🚀

zeeklog

🚀 Expo React Native 微信支付集成全攻略

zeeklog

微软 Phi-3.1 Mini (3.8B)：刚刚进行了疯狂升级（击败 Llama-3 和 Qwen2）

前些日子，微软发布了他们的Phi系列模型。首先，他们推出了Phi-3 Mini模型，这是一个4B参数的模型，接着发布了7B和14B的小型和中型模型，然后又发布了Mini Vision模型。这些模型表现都相当出色，完全符合微软的预期。

Read more

黄仁勋公开发文：传统软件开发模式终结，参与AI不必非得拥有计算机博士学位

转型AI工程师实战指南

个人开发者“接私活”降维打击：我是如何用 Nuct + Cursor 快速交付项目的 🚀

🚀 Expo React Native 微信支付集成全攻略