微软 Phi-3.1 Mini (3.8B):刚刚进行了疯狂升级(击败 Llama-3 和 Qwen2)

微软 Phi-3.1 Mini (3.8B):刚刚进行了疯狂升级(击败 Llama-3 和 Qwen2)

微软 Phi-3.1 Mini (3.8B):刚刚进行了疯狂升级(击败 Llama-3 和 Qwen2)

原创 Aitrainee  2024年07月06日 15:16湖南

Aitrainee | 公众号:AI进修生
🌟这是一个新模型,据称可以击败 Llama-3、Qwen2、Deepseek 和其他开源 LLM 等模型,同时体积更小。我将在这篇文章中对其进行测试。

前些日子,微软发布了他们的Phi系列模型。首先,他们推出了Phi-3 Mini模型,这是一个4B参数的模型,接着发布了7B和14B的小型和中型模型,然后又发布了Mini Vision模型。这些模型表现都相当出色,完全符合微软的预期。

然而,我觉得最令人印象深刻的是这个4B参数的Mini模型。尽管体积小巧,但知识储备丰富,因此我最近常用它。微软最近又对这个Mini模型进行了升级,使其性能更上一层楼。他们仍称其为Phi-3 Mini模型,但许多人称其为Phi-3.1,这个名称更加准确。

www.zeeklog.com - 微软 Phi-3.1 Mini (3.8B):刚刚进行了疯狂升级(击败 Llama-3 和 Qwen2)

这次更新仅针对Phi-3 Mini模型,性能提升了接近15%。他们说这个更新是基于客户反馈,并包含了更多的后期训练数据,显著提高了指令遵循和结构化输出的表现,还增强了多轮对话质量、系统标签支持以及推理能力,总体上是全面的改进。

www.zeeklog.com - 微软 Phi-3.1 Mini (3.8B):刚刚进行了疯狂升级(击败 Llama-3 和 Qwen2)
www.zeeklog.com - 微软 Phi-3.1 Mini (3.8B):刚刚进行了疯狂升级(击败 Llama-3 和 Qwen2)

让我们看看他们分享的最新基准测试数据。在指令硬和额外硬类别中,提升不大,但在指令挑战基准测试中,分数从24.6提高到了42.3,几乎提升了一倍。在Json结构化输出方面,从11.5提升到了52.3,提升了约五倍。在XML结构化输出方面,也有显著提升,从14.4提高到了49.8,大约是四倍的提升。

www.zeeklog.com - 微软 Phi-3.1 Mini (3.8B):刚刚进行了疯狂升级(击败 Llama-3 和 Qwen2)

此外,在GP QA和MML方面也有不错的提升,这些改进都很酷。他们还在几乎所有平台上更新了这个新模型,包括Hugging Face和Azure AI Studio,所以你可以在Azure AI Studio上免费试用,或者如果你想本地使用,可以从Llama或Hugging Face上获取这个模型。

现在,让我们来测试一下这个模型的表现。像往常一样,我会用一些问题来评估它,这些问题涵盖从简单语言任务到编程。

www.zeeklog.com - 微软 Phi-3.1 Mini (3.8B):刚刚进行了疯狂升级(击败 Llama-3 和 Qwen2)

第一个问题是找出与高植物名称押韵的数字,答案应该是“三”或“九”。让我们发送问题并查看答案。好,它没有回答正确,因此这个问题算失败。

www.zeeklog.com - 微软 Phi-3.1 Mini (3.8B):刚刚进行了疯狂升级(击败 Llama-3 和 Qwen2)

第二个问题是:我有两个苹果,然后买了两个,做了一个苹果派,用了两个苹果,吃掉一半苹果派后还剩多少苹果?答案应该是两个。让我们发送问题并查看答案。好,它虽然推理正确,但最后给出了错误答案,这也是失败。

www.zeeklog.com - 微软 Phi-3.1 Mini (3.8B):刚刚进行了疯狂升级(击败 Llama-3 和 Qwen2)

第三个问题是:Sally有三个兄弟,每个兄弟有两个姐妹,Sally有几个姐妹?答案应该是一个。它再次推理正确,但给出了错误答案,因此再次失败。

www.zeeklog.com - 微软 Phi-3.1 Mini (3.8B):刚刚进行了疯狂升级(击败 Llama-3 和 Qwen2)

第四个问题是:如果一个正六边形的短对角线是64,那么长对角线是多少?答案应该是73.9。它再次回答错误,因此也失败了。

www.zeeklog.com - 微软 Phi-3.1 Mini (3.8B):刚刚进行了疯狂升级(击败 Llama-3 和 Qwen2)

接下来是编程问题:创建一个点击按钮会爆炸彩纸的HTML页面,可以使用CSS和JS。我们发送问题并查看答案。

www.zeeklog.com - 微软 Phi-3.1 Mini (3.8B):刚刚进行了疯狂升级(击败 Llama-3 和 Qwen2)

好,它生成的代码运行良好,这是一个通过。

www.zeeklog.com - 微软 Phi-3.1 Mini (3.8B):刚刚进行了疯狂升级(击败 Llama-3 和 Qwen2)

接下来的问题是:编写一个只输出函数的Python程序,该函数打印接下来的20个闰年。我们发送问题并查看答案。好,它生成的代码正常运行,这也通过了。

www.zeeklog.com - 微软 Phi-3.1 Mini (3.8B):刚刚进行了疯狂升级(击败 Llama-3 和 Qwen2)

下一个问题是生成一个蝴蝶的SVG代码。它生成了代码,但只有一个方块,因此这是失败。

www.zeeklog.com - 微软 Phi-3.1 Mini (3.8B):刚刚进行了疯狂升级(击败 Llama-3 和 Qwen2)

下一个问题是:编写一个现代且简洁的AI公司着陆页面HTML代码,包含动画效果。生成的代码虽然很基础,但比Gemma生成的1970年代风格页面要好,因此算通过。

www.zeeklog.com - 微软 Phi-3.1 Mini (3.8B):刚刚进行了疯狂升级(击败 Llama-3 和 Qwen2)

最后一个问题是编写一个在终端上运行的Python版生命游戏。我认为这可能行不通,但还是试试吧。它生成了程序,但要求一些输入却无法运行,因此这也不通过。最终结果是它在三个问题上通过,两个问题非常接近。

www.zeeklog.com - 微软 Phi-3.1 Mini (3.8B):刚刚进行了疯狂升级(击败 Llama-3 和 Qwen2)

总的来说,考虑到它的体积,这个模型表现相当不错,尤其在编程方面表现出色,这也是我喜欢它的原因。它真的很酷。

www.zeeklog.com - 微软 Phi-3.1 Mini (3.8B):刚刚进行了疯狂升级(击败 Llama-3 和 Qwen2)

希望这篇文章对你有帮助,感谢阅读!

视频教程

https://www.youtube.com/watch?v=HribLmgpS5k

参考链接:
[1]https://ollama.com/library/phi3:3.8b
[2]https://huggingface.co/lmstudio-community/Phi-3.1-mini-4k-instruct-GGUF

Read more

黄仁勋公开发文:传统软件开发模式终结,参与AI不必非得拥有计算机博士学位

黄仁勋公开发文:传统软件开发模式终结,参与AI不必非得拥有计算机博士学位

黄仁勋分享全文: AI 是当今塑造世界最强大的力量之一。它并非仅仅是一款巧妙的应用程序,也不是某个单一的模型,而是一种就像电力和互联网一样的基础设施。 AI 依赖真实的硬件、真实的能源以及真实的经济体系运行。它可以把原材料大规模地转化为智能。未来,每家公司都会使用 AI,每个国家/地区都会建设 AI。 要理解 AI 为什么会以这样的方式发展,最好的方法是从第一性原理出发,看看计算领域究竟发生了哪些根本性的变化。 从预先编写的软件,到实时生成的智能 在计算机发展的绝大多数历史中,软件都是预先写好的。人类先描述算法,然后由计算机执行。数据必须被精心组织与设计,存储在表格中,再通过精确的查询进行检索。 因此,SQL 成为不可或缺的工具,因为它让这种计算模式变得可行。 而 AI 打破了这一模式。 我们首次拥有了一台能够理解非结构化信息的计算机。它可以识别图像、阅读文本、理解声音,并理解其中的含义。它能够根据上下文和意图进行推理。更重要的是,它能够实时生成智能。 每一次回答都是全新的。每一次回应都取决于你提供的上下文。这不再是软件从数据库中取出预先存储的指令。而是软件在实时推理

By Ne0inhk
转型AI工程师实战指南

转型AI工程师实战指南

https://github.com/zeeklog/Be-an-AI-engineer-from-any-role 如果帮到你,Plz右上角Star⭐️ 来自 590 家公司的895 条真实JD的数据分析结论: AI 工程师岗位正在疯狂分层——会的人月入翻倍,不会的人正在被时代彻底甩在身后。 现在不行动,你就下一个N+1 🚀 AI 工程师角色 残酷真相:AI 工程师已经彻底变天! 2026 年市场只认一种人:能把 LLM + RAG + Agent 真正上线、能赚钱、能扛住生产压力的 Full-Stack Builder。 岗位类型分布(2026 真实画像) * AI-First(69.4%):直接构建产品核心功能(RAG、智能体、自动化工作流)——做不出来就出局 * AI-Support(28.5%):为全公司搭建 AI

By Ne0inhk