微软开源最强小参数大模型—Phi-3 Mini

站长网2024-04-24 14:40:103阅

4月23日晚，微软在官网开源了小参数的大语言模型——Phi-3-mini。

据悉，Phi-3-mini是微软Phi家族的第4代，有预训练和指令微调多种模型，参数只有38亿训练数据却高达3.3T tokens，比很多数百亿参数的模型训练数据都要多，这也是其性能超强的主要原因之一。

Phi-3-mini对内存的占用极少，可以在 iPhone14等同类手机中部署使用该模型。尽管受到移动硬件设备的限制，但每秒仍能生成12个tokens数据。

值得一提的是，微软在预训练Phi-3-mini时使用了合成数据，能帮助大模型更好地理解语言架构、表达方式、文本语义理解、逻辑推理以及特定业务场景的专业术语等。

开源地址:https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3

Ollama地址:https://ollama.com/library/phi3

技术报告:https://arxiv.org/abs/2404.14219

2023年6月，微软首次推出了专用于Python编码的模型Phi-1，只有13亿参数却在编程领域击败了GPT-3.5等知名模型，这让微软看到小参数模型的广阔发展空间。

随后在Phi-1基础之上，微软推出了具备推理、文本生成、内容总结、起草邮件的大语言模型Phi-1.5，成为当时最强小参数模型之一。

2023年12月，微软在Phi-1.5基础之上开发了Phi-2，参数只有27亿并且在没有人类反馈强化学习和指令微调的情况下，击败了130亿参数的Llama-2和70亿参数的Mistral;在编码和数学测试中，Phi-2的性能甚至超过了700亿参数的Llama-2。

本次发布的Phi-3系列集合了之前三代所有的优秀技术特征，并使用了海量高质量数据集、创新的训练、微调方法，使其成为目前最强的开源小参数模型。

Phi-3-mini架构简单介绍

Phi-3-mini采用了transformer架构，支持4K和128K上下文窗口，也是同类小模型中第一个支持128K的开源产品。

高质量训练数据集是Phi-3-mini性能超强的重要原因之一，微软使用了3.3T tokens数据集包括:经过严格质量筛选的网络公开文档、精选的高质量教育数据和编程代码;

通过合成数据创建的教科书式数据，例如，数学、编码、常识推理、世界常识、心理科学等;

高质量聊天格式的监督数据，涵盖各种主题以反映人类在不同方面的偏好，例如，遵循指令、真实性、诚实性等。

在训练策略方面，为了帮助Phi-3-mini更好地吸收合成数据，微软使用了迭代训练策略:初始阶段，Phi-3-mini使用了公开网络数据，学会了基本的语法、语义和上下文理解;

迭代阶段，将合成数据与网络数据合并构建全新的训练集，并对Phi-3-mini进行迭代训练，进一步强化模型的理解和生成能力，并且进行多次重复训练。

测试数据方面，Phi-3Mini在MMLU、GSM-8K、MedQA、BigBench-Hard等知名基准测试平台中，对语言理解、逻辑推理、机器翻译、编码等进行了综合测试。

结果显示，Phi-3-mini仅通过少量样本提示，在语言理解、编码、数学的性能超过了参数更大的模型，整体性能非常出色。

微软表示，在未来几周内还会发布70亿参数的Phi-3-small和140亿参数的Phi-3-medium两款小模型。其中，Phi-3-medium的性能可媲美Mixtral8x7B 和GPT-3.5，资源消耗却更少。

微软开源最强小参数大模型Phi3 Mini

0003

评论列表

共(0)条

相关推荐

站长资讯
小红书本地生活潜力巨大，但也要先过「低价」这个坎｜服务商对话No.15
用户一定不需要另外一个大众点评，但用户需要另外一个平台能买到性价比高的产品。小红书的本地生活业务在如火如荼推进中，广州、上海等地已有团餐上线，其中不乏小红书特色的茶饮、咖啡类团购商品。享库存是小红书本地生活合作的第一个服务商。享库存2019年成立，起初是一个以小程序形式存在于微信私域的爆款抢购平台。
站长网2023-05-25 17:07:37
0006
站长资讯
金山办公与英伟达团队合作加速WPS AI落地
金山办公宣布与NVIDIA团队合作，通过NVIDIATensorCoreGPU、TensorRT提升图像文档识别与理解的推理效率;借助NVIDIATriton推理服务器的部署，成功优化GPU利用率，提供高推理吞吐量。相比于CPU其pipleline耗时共下降84%;采用NVIDIATriton推理服务器部署，其部署成本节省了23%。
站长网2023-06-30 22:52:30
0000
拼多多的AB面：A面Temu出海，B面服务升级
又是一年财报季，不少企业纷纷发布了自己的三季报，要说最大的惊喜，无疑是拼多多。今年的三季报发完，可以说是见证了历史:市值1850亿美金，直逼阿里1950亿美金。具体数据来看:拼多多集团今年第三季度收入为688.4亿元，同比增长93.9%，归属于拼多多普通股股东的净利润为155.371亿元，同比增长47%;不按美国通用会计准则，归属于拼多多普通股股东的净利润为170.271亿元，同比增长37%。
站长网站长资讯2023-11-30 12:10:58
0000
站长资讯
老牌直播平台“梦幻联动”，陌陌与YY搞了个跨服联赛
直播行业有了“跨服联赛”。近日，老牌直播平台陌陌直播和YY直播，携手打造了全网首届跨企业、跨平台直播联赛活动。来自两个平台的主播们同台进行才艺表演、跨服比赛，为用户带来了精彩刺激的观看体验。据了解，此次联赛活动为两个平台耗时2个月打造，不仅打通了双平台的直播前后台，还各自为联赛定制了专属直播间等。谈及为何发起这场活动，陌陌直播负责人称是“形式和内容上进行的一次联合碰撞和全新探索”。
站长网2023-07-14 09:50:40
0000
站长资讯
vivo OriginOS 4.0 暂定 10 月发布内置AI大模型
据微博博主@数码闲聊站爆料，OriginOS4.0暂定于今年10月发布。该系统底层包含安卓13和安卓14。据透露，OriginOS4.0的各种动效流畅度将得到提升，并且将包含AI大模型、全局自由小窗、超级终端、超级进程等新特性。
站长网2023-08-19 15:28:18
0001